spider抓取过程中涉及到的主要策略类型：抓取友好性

优采云发布时间: 2021-05-20 06:15

　　蜘蛛在爬网过程中面临着复杂的网络环境，以使系统能够捕获尽可能多的宝贵资源，并在不引起网站体验压力的情况下保持系统和实际环境中页面的一致性。，将设计各种复杂的抓取策略。以下简要介绍了爬网过程中涉及的主要策略类型：

　　1、爬网友好：爬网压力部署将访问压力降低到网站

　　2、常用的抓取返回码指示

　　3、识别多个URL重定向

　　4、抓取优先级分配

　　5、重复的网址过滤

　　6、获取暗网数据

　　7、抓取反作弊

　　8、提高抓取效率并有效使用带宽

　　1、抓取友善

　　Internet资源的数量级很大，这就要求抓取系统必须尽可能有效地使用带宽，并在有限的硬件和带宽资源下抓取尽可能多的有价值的资源。这就产生了另一个问题。捕获的网站的带宽用于引起访问压力。如果程度太大，将直接影响所捕获的网站的正常用户访问行为。因此，有必要在爬行过程中进行一定的抓握压力控制，以达到不影响网站正常用户访问并捕获尽可能多的有价值资源的目的。

　　通常，最基本的是基于ip的压力控制。这是因为，如果基于域名，则可能存在一个域名对应多个ip（许多大网站）或多个域名对应同一ip（小网站共享ip）的问题。实际上，通常根据ip和域名的各种条件来执行压力部署控制。同时，网站管理员平台还启动了压力反馈工具。网站管理员可以手动调整其网站的抓取压力。此时，百度蜘蛛会根据网站站长的要求优先进行抓取压力控制。

　　同一站点的爬网速率控制通常分为两类：一类是一段时间内的爬网频率；另一类是一段时间内的爬网频率。第二个是一段时间内的爬网流量。同一站点的爬网速度在不同时间将有所不同。例如，当夜晚安静，月亮黑暗而风大时，爬行速度可能会更快。它还取决于特定的站点类型。主要思想是错开正常用户访问量的高峰，并不断进行调整。对于不同的站点，还需要不同的爬网速度。

　　2、常用的抓取返回码指示

　　百度支持的几种返回码的简要介绍：

　　1）最常见的404代表“找不到”。认为该网页已过期，通常会将其从库中删除。同时，如果蜘蛛在短期内再次找到此网址，则不会对其进行爬网；

　　2） 503代表“服务不可用”。认为该网页暂时无法访问，通常网站暂时关闭，带宽有限等都会导致这种情况。对于返回503状态代码的网页，百度蜘蛛不会直接删除该URL，而是会在短时间内访问几次。如果网页已还原，则将正常进行爬网；如果继续返回503，则该URL仍将其视为断开的链接，并将其从库中删除。

　　3） 403表示“禁止”，并认为该网页当前被禁止。如果它是一个新的URL，则爬虫将不会临时抓取它，并且在短期内将对其进行几次访问。如果它是收录网址，则不会直接将其删除，并且会在短时间内被多次访问。如果可以正常访问该网页，则将正常对其进行爬网；如果仍然禁止访问，则该URL也将被视为无效链接，并已从库中删除。

　　4） 301代表“永久移动”，并认为该网页已重定向到新的URL。当遇到网站迁移，域名替换，网站修订时，我们建议使用301返回码并使用网站管理员平台网站修订工具，以减少由修订引起的网站流量损失。

　　3、识别多个URL重定向

　　由于各种原因，Internet上的某些网页具有URL重定向状态。为了正常捕获这些资源，需要蜘蛛识别和判断URL重定向并防止作弊。重定向可分为三类：http 30x重定向，元刷新重定向和js重定向。此外，百度还支持Canonical标签，可以将其视为有效的间接重定向。

　　4、抓取优先级分配

　　由于Internet资源规模的巨大而迅速的变化，搜索引擎几乎不可能捕获所有资源并进行合理更新以保持一致性。这要求爬网系统设计一组合理的捕获。采取优先部署策略。主要包括：深度优先遍历策略，广度优先遍历策略，公关优先策略，反链策略，社会共享指导策略等。每种策略各有优缺点。在实际情况下，通常会结合使用多种策略以达到最佳捕获效果。

　　5、重复的网址过滤

　　蜘蛛程序需要确定在爬网过程中是否已对页面进行爬网。如果尚未进行爬网，则它将对网页进行爬网并将其放置在已爬网的URL集合中。判断是否已爬网。涉及的最重要的事情是快速搜索和比较，还涉及URL规范化识别。例如，一个URL收录大量无效参数，但实际上是同一页面，它将被视为相同的URL。

　　6、获取暗网数据

　　Internet上有大量数据暂时无法被搜索引擎抓取，称为暗网数据。一方面，网站的大量数据存在于网络数据库中，并且蜘蛛很难通过爬网来获得完整的内容；另一方面，由于网络环境的原因，网站本身不符合规范，孤岛等，这也会导致搜索引擎无法抓取。目前，获取暗网数据的主要思想仍然是使用通过“百度网站管理员平台”，“百度开放平台”等开放平台提交数据的方法。

　　7、抓取反作弊

　　在爬行过程中，蜘蛛经常会遇到所谓的爬行黑洞或面对大量低质量的页面。这就要求爬行系统还必须设计一个完整的爬行防作弊系统。例如，分析网址特征，分析页面大小和内容，分析与爬网规模相对应的网站大小等等。

　　原文：

0

2021-05-20

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

spider抓取过程中涉及到的主要策略类型：抓取友好性

0 个评论

发起人