c爬虫抓取网页数据(4.Partial策略PartialPageRank策略PageRankPageRank算法借鉴了算法)

优采云发布时间: 2022-02-10 12:01

　　-

　　. z。

　　网络爬虫的基本原理

　　网络爬虫是搜索引擎历史爬取策略的基本思想，即将新下载的网页中找到的直接插入待爬取URL队列的尾部。也就是说，网络爬虫会先爬取起始网页中的所有网页，然后选择其中一个网页，继续爬取该网页中的所有网页。或者以上图为例：

　　遍历路径：ABCDEF GHI

　　3.倒数策略

　　反向链接数是指一个网页被其他网页指向的次数。反向链接的数量表示网页内容被他人推荐的程度。因此，在很多情况下，搜索引擎的爬取系统会使用这个指标来评估网页的重要性，从而确定不同网页的爬取顺序。

　　-

　　. z。

　　在真实的网络环境中，由于广告和*敏*感*词*的存在，倒数不能完全等同于他和我的重要性。因此，搜索引擎倾向于考虑一些可靠的反向链接数字。

　　4.部分PageRank策略

　　Partial PageRank算法借鉴了PageRank算法的思想：对于下载的网页，与待爬取的URL队列中的URL一起形成一组网页，计算每个页面的PageRank值. URL 按 PageRank 值排序，并按该顺序抓取页面。

　　如果每次爬取一个页面都重新计算一次PageRank值，折中的解决方案是：每爬完K个页面，重新计算一次PageRank值。但是这种情况还是有一个问题：对于下载页面的部分，也就是我们前面提到的未知网页的部分，暂时没有PageRank值。为了解决这个问题，给这些页面一个临时的PageRank值：聚合这个网页所有传入链接传入的PageRank值的进度，这样就形成了未知页面的PageRank值，从而参与分拣。以下示例说明：

　　5.OPIC 政策政策

　　该算法实际上是页面进度的重要性分数。在算法开始之前，所有页面都会获得相同的初始*敏*感*词*。当第一页P被下载时，P的*敏*感*词*分配给所有从P分析的，P的*敏*感*词*被清空。待爬取URL队列中的所有页面都按照兑现进度进行排序。

　　6.大网站优先策略

　　对于URL队列中所有待爬取的网页，按照进度进行分类。要下载的页数，请先下载。这种策略也称为大站点优先策略。

　　四、更新政策

　　互联网实时变化并且非常动态。网页更新策略主要决定何时更新之前已经下载的页面。常见的更新策略有以下三种：

　　1.历史参考政策

　　顾名思义，它根据页面过去的历史更新数据来预测未来页面何时会发生变化。通常，进度预测由泊松过程进度建模。

　　2.用户体验策略虽然搜索引擎可以为第一个查询条件返回大量结果，但用户往往只关注前几页结果。因此，爬虫系统可以优先更新那些实际在查询结果前几页的页面，然后再更新后面的那些页面。这个更新策略也需要用到历史信息。用户体验策略保存了网页的多个历史版本，并根据过去的每次内容变化对搜索质量产生影响。

0

2022-02-10

c爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c爬虫抓取网页数据(4.Partial策略PartialPageRank策略PageRankPageRank算法借鉴了算法)

0 个评论

发起人