网站内容抓取(一下抓取过程中涉及到的主要策略类型：抓取压力)

优采云发布时间: 2022-02-08 22:10

　　Spider在爬取过程中面临着复杂的网络环境。为了让系统尽可能多的抓取有价值的资源，保持系统中页面与实际环境的一致性，不给网站的体验带来压力，会设计各种复杂的爬取策略。下面简单介绍一下爬取过程中涉及的主要策略类型：

　　1、抓取友好性：抓取压力调制降低了对网站的访问压力

　　2、常用爬取返回码

　　3、识别多个 url 重定向

　　4、获取优先级均衡

　　5、重复url过滤

　　6、访问暗网数据

　　7、抢反作弊

　　8、提高爬取效率，有效利用带宽

　　1、爬虫友好度

　　海量的互联网资源要求抓取系统在有限的硬件和带宽资源下，尽可能高效地利用带宽，尽可能多地抓取有价值的资源。这就产生了另一个问题，消耗了被逮捕的网站的带宽并造成访问压力。如果太大，将直接影响被捕网站的正常用户访问行为。因此，需要在爬取过程中控制爬取压力，以达到在不影响网站正常用户访问的情况下尽可能多地抓取有价值资源的目的。

　　通常，最基本的是基于IP的压力控制。这是因为如果是基于域名的话，可能会出现一个域名对应多个IP（很多大网站）或者多个域名对应同一个IP（小网站共享 IP）。在实践中，往往根据ip和域名的各种情况进行压力分配控制。同时，站长平台也推出了压力反馈工具。站长可以自己手动调节抓取压力网站。这时百度蜘蛛会根据站长的要求，优先控制抓取压力。

　　对同一个站点的爬取速度控制一般分为两类：一类是一段时间内的爬取频率；另一种是一段时间内的爬行流量。同一个站点在不同时间的爬取速度也会不同。例如，在夜深人静、月黑风高的情况下，爬行可能会更快。它还取决于特定的站点类型。主要思想是错开正常的用户访问高峰并不断进行调整。不同的站点也需要不同的爬取率。

　　2、常用爬取返回码

　　简单介绍一下百度支持的几个返回码：

　　1）最常见的 404 代表“未找到”。认为网页已过期，通常会从库中删除。同时，如果蜘蛛在短期内再次找到这个url，则不会被抓取；

　　2）503代表“Service Unavailable”，表示网页暂时无法访问，一般发生在网站暂时关闭，带宽受限时。对于返回503状态码的网页，百度蜘蛛不会直接删除这个url，会在短时间内多次访问。如果网页已经恢复，会正常爬取；如果它继续返回 503，这个 url 仍然会被访问。被认为是断开的链接，已从库中删除。

　　3）403 代表“Forbidden”，认为该网页当前被禁止访问。如果是新的url，蜘蛛暂时不会抓取，短时间内也会多次访问；如果是已经存在的收录url，则不会直接删除，短时间内也会多次访问。如果网页正常访问，则正常爬取；如果仍然禁止访问，则此 url 也将被视为无效链接，将从库中删除。

　　4）301 代表“Moved Permanently”，表示页面重定向到新的 url。当遇到网站迁移、域名更换、网站改版等问题时，建议使用301返回码并使用站长平台的网站改版工具，以减少改版带来的网站流量损失。

　　3、识别多个 url 重定向

　　由于各种原因，互联网上的某些网页具有 url 重定向状态。为了正常抓取这些资源，需要蜘蛛识别和判断url重定向，同时防止作弊。重定向可以分为三类：http 30x 重定向、元刷新重定向和 js 重定向。另外，百度还支持Canonical标签，在效果上可以认为是间接重定向。

　　4、获取优先级均衡

　　由于互联网资源的巨*敏*感*词*和快速变化，搜索引擎几乎不可能全部抓取并合理更新以保持一致性。因此，这就需要爬取系统设计一套合理的爬取优先级。供应策略。主要包括：深度优先遍历策略、广度优先遍历策略、pr-first策略、反链策略、社交分享引导策略等。每种策略各有优缺点，在实际情况下，往往会出现多种策略配合使用，达到最佳的抓取效果。

　　5、重复url过滤

　　在爬取过程中，蜘蛛需要判断一个页面是否被爬取过。如果还没有被爬取过，就会对网页进行爬取，放到被爬取的url集合中。判断是否被爬取的核心是快速查找对比，还涉及到url规范化识别。例如，一个 url 收录大量无效参数，但实际上是同一个页面，将被视为同一个 url 。

　　6、访问暗网数据

　　互联网上有很多暂时无法被搜索引擎捕获的数据，称为暗网数据。一方面，网站的大量数据存在于网络数据库中，蜘蛛很难通过爬取网页获取完整的内容；以此类推，也会导致搜索引擎无法抓取。目前暗网数据获取的主要思路还是使用开放平台提交数据，如“百度站长平台”、“百度开放平台”等。

　　7、抢反作弊

　　爬虫在爬取过程中，经常会遇到所谓的爬虫黑洞或面临大量低质量页面，这就要求在爬虫系统中还应设计一套完整的爬虫防作弊系统。比如分析url特征，分析页面大小和内容，分析爬取规模对应的站点规模等等。

0

2022-02-08

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取(一下抓取过程中涉及到的主要策略类型：抓取压力)

0 个评论

发起人

AI时代内容工厂

网站内容抓取(一下抓取过程中涉及到的主要策略类型：抓取压力)

0 个评论

发起人

相关问题