网站内容更新不及时(关于网页更新的问题,爬虫是如何应对的?(组图))
优采云 发布时间: 2021-09-06 17:28网站内容更新不及时(关于网页更新的问题,爬虫是如何应对的?(组图))
每天、每小时、每分钟、每秒,互联网数据都在不断变化。如果爬虫想要获取实时数据,还得跟上网络的节奏不断更新,那么Rhino小编就为大家介绍一下,爬虫是如何处理网页更新的问题的?
第一种处理方法,以过去的数据为参考
一些优雅的就是“历史记录”,它是根据网页过去的历史更新数据来预测和分析网页变化的时机。正常
是通过泊松过程建模进行预测。
第二种处理方式,以用户体验为参考
一般来说,搜索引擎用户提交查询后,相关的搜索结果不计算在内,用户的耐心最多到查询结果的前3页。用户体验策略就是利用搜索引擎用户的这个特性来设计一个更新策略。
此更新策略的主要标准是客户体验。即使搜索引擎前3页的内容是很久以前的,但在不影响客户体验的情况下,可以稍后更新很久以前网页的内容。 因此,判断一个网页何时更新取决于这些网页内容的变化引起的搜索引擎质量的变化。网页越有影响力,更新速度就越快。
客户体验策略保存网页的多个历史版本,并根据每次内容变化对过去搜索质量的影响计算平均值,作为判断网络爬虫时机的参考依据重新抓取网页。网页越强大,就越优先安排重新抓取。
对聚类抽样第三原则的回应
以上两个更新原则需要一个前提:你需要尝试历史页面上的信息。这个前提有两个问题。第一个问题是系统需要为每个系统存储多个版本的历史信息,比如网站更改导致的搜索引擎重新抓取,并保留原来的和更新的版本,这个必然会增加很多系统负担;第二个问题,假设新站点没有网页的历史信息,无法确定更新策略。
这种策略认为网页有很多属性,属性相似的网页可以认为更新频率相似。要衡量某一类网页的更新频率,只需对该类网页进行采样,并将其更新周期作为整个类别的更新周期即可。
上面介绍了爬虫如何处理网页更新问题。相关实验表明,聚类采样策略优于上述两种更新策略。它只聚集了数亿个网页,其难度系数也非常巨大。 .