抓取网页数据php(北京信息职业技术学院|非完全PageRank策略(PartialPageRank))
优采云 发布时间: 2021-11-23 06:08抓取网页数据php(北京信息职业技术学院|非完全PageRank策略(PartialPageRank))
不完整的PageRank策略北京信息学院| 郑树辉易信PageRank概述1、PageRank算法:是一种著名的链接分析算法。在网络爬虫中,利用PageRank的思想对URL优先级进行排序。2、PageRank 是一种全局算法。当所有网页都下载后,计算结果是可靠的。网页在爬行阶段无法获得可靠的PageRank值。2 不完全PageRank(PartialPageRank)概述 PartialPageRank算法借鉴了PageRank算法的思想:根据一定的网页分析算法,预测候选网址与目标网页的相似度,或与主题的相关性,并选择最好的一个或多个网址进行爬取,即对于下载的网页,连同要爬取的URL队列中的URL,形成一个网页集合,计算每个页面的PageRank值,计算完成后,要爬取的URL队列中的URL基于PageRank的值按数量级排列,并按该顺序抓取页面。3 不完整的PageRank 策略 它只访问被网络分析算法预测为“有用”的网页。一个问题是爬虫的爬取路径中很多相关的网页可能会被忽略,因为最好的优先级策略是局部最优搜索算法。因此,需要将最佳优先级与具体应用结合起来进行改进,才能跳出局部最佳。研究表明,这样的闭环调整可以将不相关网页的数量减少30%到90%。4 不完整的PageRank策略如果每次爬取一个页面,都会重新计算PageRank值,效率低下。一个折衷的解决方案是每次获取 K 个页面时重新计算 PageRank 值。但是,在这种情况下仍然存在一个问题:对于下载页面中分析的链接,即我们前面提到的未知网页部分,暂时没有PageRank值。为了解决这个问题,这些页面会被赋予一个临时的PageRank值:将所有传入该页面链的PageRank值汇总,从而形成未知页面的PageRank值,参与排名.