c爬虫抓取网页数据(4.Partial策略PartialPageRank策略PageRankPageRank算法借鉴了算法)

优采云 发布时间: 2022-02-10 12:01

  c爬虫抓取网页数据(4.Partial策略PartialPageRank策略PageRankPageRank算法借鉴了算法)

  -

  . z。

  网络爬虫的基本原理

  网络爬虫是搜索引擎历史爬取策略的基本思想,即将新下载的网页中找到的直接插入待爬取URL队列的尾部。也就是说,网络爬虫会先爬取起始网页中的所有网页,然后选择其中一个网页,继续爬取该网页中的所有网页。或者以上图为例:

  遍历路径:ABCDEF GHI

  3.倒数策略

  反向链接数是指一个网页被其他网页指向的次数。反向链接的数量表示网页内容被他人推荐的程度。因此,在很多情况下,搜索引擎的爬取系统会使用这个指标来评估网页的重要性,从而确定不同网页的爬取顺序。

  -

  . z。

  在真实的网络环境中,由于广告和*敏*感*词*的存在,倒数不能完全等同于他和我的重要性。因此,搜索引擎倾向于考虑一些可靠的反向链接数字。

  4.部分PageRank策略

  Partial PageRank算法借鉴了PageRank算法的思想:对于下载的网页,与待爬取的URL队列中的URL一起形成一组网页,计算每个页面的PageRank值. URL 按 PageRank 值排序,并按该顺序抓取页面。

  如果每次爬取一个页面都重新计算一次PageRank值,折中的解决方案是:每爬完K个页面,重新计算一次PageRank值。但是这种情况还是有一个问题:对于下载页面的部分,也就是我们前面提到的未知网页的部分,暂时没有PageRank值。为了解决这个问题,给这些页面一个临时的PageRank值:聚合这个网页所有传入链接传入的PageRank值的进度,这样就形成了未知页面的PageRank值,从而参与分拣。以下示例说明:

  5.OPIC 政策政策

  该算法实际上是页面进度的重要性分数。在算法开始之前,所有页面都会获得相同的初始*敏*感*词*。当第一页P被下载时,P的*敏*感*词*分配给所有从P分析的,P的*敏*感*词*被清空。待爬取URL队列中的所有页面都按照兑现进度进行排序。

  6.大网站优先策略

  对于URL队列中所有待爬取的网页,按照进度进行分类。要下载的页数,请先下载。这种策略也称为大站点优先策略。

  四、更新政策

  互联网实时变化并且非常动态。网页更新策略主要决定何时更新之前已经下载的页面。常见的更新策略有以下三种:

  1.历史参考政策

  顾名思义,它根据页面过去的历史更新数据来预测未来页面何时会发生变化。通常,进度预测由泊松过程进度建模。

  2.用户体验策略虽然搜索引擎可以为第一个查询条件返回大量结果,但用户往往只关注前几页结果。因此,爬虫系统可以优先更新那些实际在查询结果前几页的页面,然后再更新后面的那些页面。这个更新策略也需要用到历史信息。用户体验策略保存了网页的多个历史版本,并根据过去的每次内容变化对搜索质量产生影响。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线