搜索引擎如何抓取网页( 带索引搜索引擎必须决定将哪些页面包含在其索引库中)
优采云 发布时间: 2021-09-28 18:00搜索引擎如何抓取网页(
带索引搜索引擎必须决定将哪些页面包含在其索引库中)
搜索引擎如何使用链接
搜索引擎主要通过链接寻找页面,并将链接视为对这些页面的投票。但是一旦你得到了信息,你如何使用它?让我们来看看。
带索引
搜索引擎必须决定将哪些页面收录在其索引库中。网络爬虫(跟随链接)是查找网页的一种方式(另一种是使用爬行速度/频率)。
搜索引擎蜘蛛每天都会抓取部分互联网。这个任务并不简单,先决定从哪里开始,去哪里。谷歌已经公开表示将按照 PR 值的相反顺序开始抓取。换句话说,它将获取PR值为10的网站。这是一个PR值为9的网站等。具有高PR值的网站应该比其他< @网站。Bing 搜索引擎可能已经开始抓取最重要的 网站。
这是有道理的。因为 网站 上最重要的变化是搜索引擎首先寻找什么。另外,当一个很重要的网站第一次被定向到一个新资源时,搜索引擎往往会给这个链接很高的可信度,这个新链接(投票)应该尽快纳入算法尽可能。谷歌已经发布了Caffeine并更新了其基础架构,以显着提高抓取能力和速度,但在抓取优先队列中获得更高的排名仍然是一个问题。
班级
链接在排名中起着重要作用。例如,如果两个网站的页面内容与给定主题具有相同的相关性,则可能是两个购物网站。
搜索引擎需要一种方法来确定哪个 网站 是 #1、Amazon 或 JoesShoppingSite。此链接有效。林克拥有决定性的一票。亚马逊排名高于JoesShopping网站,因为如果更多网站和更重要的网站链接到亚马逊,亚马逊应该更重要。