网站内容策略(搜索引擎系统第二部分内容—spider抓取系统基本框架、抓取策略)

优采云发布时间: 2021-10-11 06:31

　　给大家分享了搜索引擎爬虫系统中爬虫系统的基本框架，爬虫所涉及的网络协议，爬虫的基本过程。今天，我将分享搜索引擎抓取系统的第二部分——蜘蛛抓取过程中的策略。

　　Spider在爬取过程中面临着复杂的网络环境，为了让系统能够抓取尽可能多的有价值的资源，在不给网站的体验带来压力的情况下，在实际环境中保持系统和页面的一致性@> ，会设计各种复杂的爬取策略。下面简单介绍一下爬取过程中涉及的主要策略类型：

　　1、爬取友好性：爬取压力部署将访问压力降低到网站@>

　　2、普通抓取返回码

　　3、识别多个URL重定向

　　4、抢优先分配

　　5、重复 URL 过滤

　　6、暗网数据的获取

　　7、抢反作弊

　　8、提高爬虫效率，有效利用带宽

　　1、抓取友好

　　互联网资源的巨大数量级要求抓取系统尽可能高效地使用带宽，在有限的硬件和带宽资源下抓取尽可能多的有价值的资源。这就产生了另一个问题。捕获的网站@>消耗的带宽造成访问压力。如果级别过大，会直接影响捕获到的网站@>的正常用户访问行为。因此，在爬取过程中，必须控制一定的爬取压力，以达到不影响网站@>的正常用户访问，尽可能多的抓取有价值资源的目的。

　　一般情况下，最基本的就是基于ip的压力控制。这是因为如果是基于一个域名，可能会出现一个域名对应多个ip（很多大网站@>）或多个域对应同一个ip（小网站@>共享）的问题ip）。在实际中，压力部署控制往往是根据ip和域名的各种情况进行的。同时，站长平台也推出了压力反馈工具。站长可以手动调整他的网站@>的抓取压力。此时，百度蜘蛛会根据站长的要求，优先进行抓取压力控制。

　　同一站点的爬行速度控制一般分为两类：一类是一段时间内的爬行频率；二是一段时间内的爬取流量。同一个站点的爬取速度在不同的时间会有所不同。比如夜深了，月亮暗，风大的时候，爬行的速度可能会更快。它还取决于特定的站点类型。主要思想是错开正常用户访问的高峰期，不断调整。对于不同的站点，也需要不同的爬取速度。

　　2、普通抓取返回码

　　简单介绍一下百度支持的几种返回码：

　　1) 最常见的 404 代表“未找到”。认为该网页无效，通常会从库中删除。同时，如果蜘蛛在短期内再次找到这个网址，则不会被抓取；

　　2) 503 代表“服务不可用”。认为是网页暂时无法访问，通常网站@>暂时关闭，带宽受限等都会造成这种情况。对于返回503状态码的网页，百度蜘蛛不会直接删除网址，会在短时间内多次访问。如果网页已经恢复，则可以正常抓取；如果它继续返回503，则该URL仍然会被认为是一个断开的链接并从库中将其删除。

　　3) 403 代表“Forbidden”，认为该网页当前被禁止。如果是新的url，蜘蛛暂时不会抓取，短期内会重复访问几次；如果是收录 url，不会直接删除，同样会在短时间内重复多次。如果网页访问正常，就会正常抓取；如果仍然禁止访问，则此 url 也将被视为无效链接并从库中删除。

　　4)301 代表“Moved Permanently”，认为网页被重定向到新的url。遇到网站迁移、域名更换、网站改版时，建议使用301返回码，并使用站长平台网站@>改版工具，减少改版带来的网站@>流量损失。

　　3、识别多个URL重定向

　　由于各种原因，Internet 上的某些网页具有 URL 重定向状态。为了正常抓取这部分资源，需要蜘蛛识别和判断URL重定向，防止作弊。重定向可以分为三类：http 30x 重定向、元刷新重定向和js 重定向。此外，百度还支持Canonical标签，可以看作是一种间接重定向的效果。

　　4、抢优先分配

　　由于互联网资源规模的巨大而快速的变化，搜索引擎几乎不可能全部捕获并合理更新以保持一致性。这就需要爬取系统设计一套合理的爬取优先级。部署策略。主要包括：深度优先遍历策略、广度优先遍历策略、pr-first策略、反链策略、社交分享引导策略等，每种策略各有优缺点。在实际情况中，往往会采用多种策略组合使用，以达到最佳的捕捉效果。

　　5、重复 URL 过滤

　　爬虫在爬取过程中，需要判断一个页面是否被爬取，如果没有被爬取，则爬取该网页并将其放入爬取的URL集合中。判断是否被爬取，最重要的就是快速搜索对比，还涉及到url归一化识别。例如，如果一个 url 收录大量无效参数，但实际上是同一个页面，它将被视为相同的 url。.

　　6、暗网数据的获取

　　互联网上存在大量搜索引擎暂时无法捕获的数据，称为暗网数据。一方面，网站@>的大量数据存在于网络数据库中，蜘蛛很难通过抓取网页获取完整的内容；另一方面，由于网络环境，网站@>本身不符合规范，被隔离。依此类推，也会导致搜索引擎无法抓取。目前获取暗网数据的主要思路仍然是利用开放平台，采用数据提交方式，如“百度站长平台”、“百度开放平台”等。

　　7、抢反作弊

　　蜘蛛在爬取过程中，经常会遇到所谓的爬取黑洞或面临大量低质量页面的困扰，这就需要爬取系统也设计了一套完整的爬取防作弊系统。比如分析url特征，分析页面大小和内容，分析爬取规模对应的站点大小等等。

　　以上简单介绍了爬取过程中涉及的主要策略。每个策略都收录很多细节，可能会影响网站@>的爬取。有什么问题可以直接提出，我们一起讨论。

　　文章地址：

0

2021-10-11

网站内容策略

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容策略(搜索引擎系统第二部分内容—spider抓取系统基本框架、抓取策略)

0 个评论

发起人

AI时代内容工厂

网站内容策略(搜索引擎系统第二部分内容—spider抓取系统基本框架、抓取策略)

0 个评论

发起人

相关问题