搜索引擎如何抓取网页(搜索引擎内容比较简单去网址索引库删除的链接有什么作用)
优采云 发布时间: 2022-02-02 07:18搜索引擎如何抓取网页(搜索引擎内容比较简单去网址索引库删除的链接有什么作用)
搜索引擎内部有一个网站索引库,所以搜索引擎蜘蛛从搜索引擎的服务器开始,沿着搜索引擎已有的网站爬取一个网页,再把网页的内容爬回去。
图 8182-1:
搜索引擎蜘蛛对我们来说非常神秘,这也是本文图片使用蜘蛛侠的原因。当然,我们既不是百度也不是谷歌,所以只能谈探索,不能透露。本文内容比较简单,只是给不知道方法的朋友分享一下,高手高手请绕道。
传统上,我们认为搜索引擎蜘蛛(spider)爬行应该类似于真正的蜘蛛在蜘蛛网上爬行。也就是比如百度蜘蛛找到一个链接,沿着这个链接爬到一个页面,然后沿着这个页面的链接继续爬......这类似于蜘蛛网和一棵大树。这个理论虽然正确,但并不准确。
搜索引擎内部有一个网站索引库,所以搜索引擎蜘蛛从搜索引擎的服务器开始,沿着搜索引擎已有的网站爬取一个网页,再把网页的内容爬回去。采集 页面返回后,搜索引擎会对其进行分析,并将内容与链接分开。内容暂不提及。分析完链接后,搜索引擎不会立即派蜘蛛去爬取,而是将链接和锚文本记录到URL索引库中进行分析比较计算,最后放入URL索引库。进入网址索引库后,会有蜘蛛爬取。
也就是说,如果有某个网页的外部链接,不一定会有蜘蛛立即抓取该页面,但会有一个分析计算的过程。即使外部链接在被蜘蛛抓取后被删除,该链接也可能已经被搜索引擎记录下来,以后仍有可能被抓取。而下次如果蜘蛛爬取外链所在的页面,发现该链接不存在,或者外链所在的页面出现404,只会降低外链的权重,它不应该去URL索引库删除链接。.
因此,不再存在的页面上的链接也可以使用。今天就分享这些,以后会继续和大家分享我自己分析的内容。如有不妥之处,请批评指正。