网站内容维护更新方法(1.有哪些网页检索维护的方法主要有宽度(一))
优采云 发布时间: 2022-01-13 10:09网站内容维护更新方法(1.有哪些网页检索维护的方法主要有宽度(一))
1. 网页检索和维护有哪些方法?
主要有宽度(breadth)优先,兼顾深度的遍历策略、非重复爬取策略、大站点优先级策略、不完全PageRank策略、OCIP策略、合作爬取策略等主流网络爬取策略。详情请参考:搜索引擎爬虫网页爬取策略
部分PageRank策略(Partial PageRank) 对于下载的网页(不完整的互联网页面的子集),与待抓取的URL队列中的URL一起,形成一个网页集合,在这个集合内进行PageRank计算;计算完成后,根据PageRank分数从高到低对URL队列中待爬取的网页进行排序,形成的序列就是爬虫接下来要爬取的URL列表。由于PageRank是全局算法,所以在所有网页都下载完的情况下计算结果是可靠的,但是爬虫在爬取过程中只能接触到部分网页,所以在爬取网页时并不可靠。PageRank 是计算出来的,所以称为不完全 PageRank 策略。
OCIP策略(Online Page Importance Computation) OCIP字面意思是“在线页面重要性计算”,是一种改进的PageRank算法。在算法开始之前,每个 Internet 页面都被赋予相同的值。每当一个页面 P 被下载时,P 将其拥有的值平均分配给该页面中收录的链接,同时清除自己的值。对于URL队列中待爬取的网页,按照手头的值排序,先下载值较大的网页。
2. 更新网页的策略是什么?
常见的搜索引擎更新策略有三种:1)历史参考策略;2)用户体验策略;3)集群抽样策略。
1、历史参考策略其实做了几个假设:过去经常更新的网页,以后也会经常更新。因此,为了估计网页的更新时间,可以参考历史更新情况。
2、用户体验策略 一般来说,搜索引擎将处理后的结果反馈给用户后,大部分用户只看前3个左右,搜索引擎可以相对频繁地更新这部分网页。
3、聚类采样策略这种更新策略考虑到网页有一些属性,根据这些属性可以预测更新周期,属性相似的网页的更新周期也差不多,所以这些网页可以归入同一类别。网站 具有相同的更新频率。
3. 什么是深度优先,广度优先?
广度优先搜索:广度优先搜索是基于树的层级的搜索。如果该级别的搜索没有完成,则不会进行下一个级别的搜索。
深度优先搜索:深度优先搜索是基于树的深度,所以也叫垂直搜索。每层只扩展一个节点,直到它成为树的指定深度或叶节点。这称为深度优先搜索。
4. 深度优先、广度优先的优缺点?各自的使用场景?先说一下这两种算法的区别。广度优先搜索适合所有情况下的搜索,但深度优先搜索不一定适合所有情况下的搜索。因为已解决的问题树可能收录无限分支,如果深度优先搜索误入无限分支(即无限深度),则无法找到目标节点。因此,深度优先搜索策略是不完整的。
广度优先搜索范围:在树深度未知的情况下,使用该算法是安全可靠的。当树系统相对较小且不太大时,广度优先也更好。
深度优先搜索的适用范围:我只是说深度优先搜索有其自身的不足,但这并不意味着深度优先搜索没有自己的价值。当树的深度已知且树系统很大时,深度优先搜索往往优于广度优先搜索,因为例如在一个 8*8 的棋盘中,如果使用广度搜索,所有必须记录节点。这种存储量通常超出计算机的能力范围。但是,如果使用深度优先搜索,则可以在确定棋盘后释放之前的节点内存。