网站内容更新策略(什么时候去爬取合适？3.3网页更新策略书摘)

优采云发布时间: 2021-11-19 23:05

　　本节摘自华章出版社《精通Python网络爬虫：核心技术、框架与项目实战》一书第3章，章节3.3，作者魏伟，更多章节可查阅在云端查看齐社区“华章电脑”的公众号。

　　3.3网页更新策略

　　网站的网页经常更新。作为爬虫，在网页更新后，我们需要重新抓取这些网页。那么什么时候爬行比较合适呢？如果网站更新太慢，爬虫爬虫太频繁，势必会增加爬虫和网站服务器的压力。网站更新越快，爬取时间间隔越长。长，我们抓取的内容版本会太旧，不利于抓取新的内容。显然，网站的更新频率和爬虫访问网站的频率越接近，效果越好。当然，当爬虫服务器资源有限时，爬虫也需要根据相应的策略制作不同的网页。具有不同的更新优先级，

　　具体来说，常见的网页更新策略有3种：用户体验策略、历史数据策略、聚类分析策略等，下面我们分别进行讲解。

　　当搜索引擎查询某个关键词时，就会出现一个排名结果。在排名结果中，通常会有大量的网页。然而，大多数用户只关注排名靠前的网页。在爬虫服务器资源有限的情况下，爬虫会优先更新排名结果最高的网页。这种更新策略，我们称之为用户体验策略，那么在这个策略中，爬虫什么时候抓取这些排名靠前的网页呢？此时，抓取时会保留相应网页的多个历史版本，并根据这些网页的内容更新、搜索质量影响、用户体验等信息进行相应分析，确定这些网页的抓取周期。历史版本。

　　此外，我们还可以利用历史数据策略来确定更新和抓取网页的周期。例如，我们可以根据某个网页的历史更新数据，通过泊松过程建模等手段来预测该网页的下次更新时间，从而确定该网页下次被抓取的时间，即确定更新循环。

　　以上两种策略都需要历史数据作为依据。有时候，如果一个网页是新的网页，就会没有对应的历史数据，而如果是基于历史数据进行分析，爬虫服务器需要保存对应网页的历史版本信息，这无疑给爬虫服务器带来了更大的压力和负担。如果要解决这些问题，则需要采用新的更新策略。比较常用的是聚类分析策略。那么什么是聚类分析策略呢？

　　在日常生活中，相信大家对分类都非常熟悉。比如我们去商场的时候，商场里的商品一般都是分类分类的，方便顾客选择相应的商品。此时，产品分类的类别是固定的。起草。但是，如果货物数量巨大，则无法提前分类，或者根本不知道将拥有哪些类型的货物。这个时候，我们应该如何解决商品的分类问题呢？

　　这时候就可以用聚类的方法来解决问题，分析产品之间的共性。

　　具有更多共性的商品归为一类。这个时候，商品聚合成的品类数量是不确定的，但可以保证的是，聚集在一起的商品之间一定有一定的共性，即按照“归于同一品类的东西” ”。要实现的想法。

　　同样，在我们的聚类算法中，也会有类似的分析过程。

　　我们可以将聚类分析算法应用于爬虫对网页的更新，如图3-4所示。

　　1）首先，经过大量的研究，发现网页可能有不同的内容，但一般来说，属性相似的网页更新频率相似。这是聚类分析算法应用于爬虫网页更新的前提指导思想。

　　2）有了1中的指导思想，我们可以先对大量的网页进行聚类分析。聚类后，将形成多个类别。每个类别中的网页具有相似的属性，即一般具有相似的更新频率。

　　3）聚类完成后，我们可以对同一聚类中的网页进行采样，然后计算采样结果的平均更新值，从而确定每个聚类的抓取频率。

　　以上是使用爬虫爬取网页时的三种常见更新策略。当我们掌握了算法思路之后，再跟进爬虫的实际开发时，编译出来的爬虫的执行效率会更高，执行逻辑也会更高。会更合理。

0

2021-11-19

网站内容更新策略

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容更新策略(什么时候去爬取合适？3.3网页更新策略书摘)

0 个评论

发起人

AI时代内容工厂

网站内容更新策略(什么时候去爬取合适？3.3网页更新策略书摘)

0 个评论

发起人

相关问题