搜索引擎如何抓取网页(搜索引擎内容比较简单去网址索引库删除的链接有什么作用)

优采云发布时间: 2022-02-02 07:18

　　搜索引擎内部有一个网站索引库，所以搜索引擎蜘蛛从搜索引擎的服务器开始，沿着搜索引擎已有的网站爬取一个网页，再把网页的内容爬回去。

　　图 8182-1：

　　搜索引擎蜘蛛对我们来说非常神秘，这也是本文图片使用蜘蛛侠的原因。当然，我们既不是百度也不是谷歌，所以只能谈探索，不能透露。本文内容比较简单，只是给不知道方法的朋友分享一下，高手高手请绕道。

　　传统上，我们认为搜索引擎蜘蛛（spider）爬行应该类似于真正的蜘蛛在蜘蛛网上爬行。也就是比如百度蜘蛛找到一个链接，沿着这个链接爬到一个页面，然后沿着这个页面的链接继续爬......这类似于蜘蛛网和一棵大树。这个理论虽然正确，但并不准确。

　　搜索引擎内部有一个网站索引库，所以搜索引擎蜘蛛从搜索引擎的服务器开始，沿着搜索引擎已有的网站爬取一个网页，再把网页的内容爬回去。采集页面返回后，搜索引擎会对其进行分析，并将内容与链接分开。内容暂不提及。分析完链接后，搜索引擎不会立即派蜘蛛去爬取，而是将链接和锚文本记录到URL索引库中进行分析比较计算，最后放入URL索引库。进入网址索引库后，会有蜘蛛爬取。

　　也就是说，如果有某个网页的外部链接，不一定会有蜘蛛立即抓取该页面，但会有一个分析计算的过程。即使外部链接在被蜘蛛抓取后被删除，该链接也可能已经被搜索引擎记录下来，以后仍有可能被抓取。而下次如果蜘蛛爬取外链所在的页面，发现该链接不存在，或者外链所在的页面出现404，只会降低外链的权重，它不应该去URL索引库删除链接。.

　　因此，不再存在的页面上的链接也可以使用。今天就分享这些，以后会继续和大家分享我自己分析的内容。如有不妥之处，请批评指正。

0

2022-02-02

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎内容比较简单去网址索引库删除的链接有什么作用)

0 个评论

发起人

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎内容比较简单去网址索引库删除的链接有什么作用)

0 个评论

发起人

相关问题