搜索引擎蜘蛛的爬行是怎么做的呢？【豹子融】

优采云发布时间: 2021-05-22 20:13

　　第一步：爬行

　　搜索引擎通过特定的软件模式跟踪到网页的链接，从一个链接爬行到另一个链接，就像在蜘蛛网上爬行的蜘蛛一样，因此被称为“蜘蛛”或“机器人”。搜索引擎蜘蛛的爬网是按照一定的规则输入的，它需要遵循一些命令或文件的内容。

　　第2步：获取并存储

　　搜索引擎通过蜘蛛跟踪链接爬网到网页，并将爬网的数据存储在原创页面数据库中。页面数据与用户浏览器获得的HTML完全相同。搜索引擎蜘蛛在爬网页面时还会执行某些重复的内容检测。一旦他们在网站上遇到很多抄袭，采集或复制的内容，而且重量很轻，它们很可能会停止爬行。

　　第3步：预处理

　　搜索引擎将对蜘蛛抓取的网页进行不同的预处理。

　　①提取文字

　　②汉语分词

　　③去停词

　　⑤前向索引

　　⑥倒排索引

　　⑦链接关系计算

　　⑧特殊文件处理

　　除了HTML文件之外，搜索引擎通常还可以抓取和索引各种基于文本的文件类型，例如PDF，Word，WPS，XLS，PPT，TXT文件等。我们经常在搜索中看到这些文件类型结果。但是，搜索引擎无法处理图片，视频和Flash等非文本内容，也无法执行脚本和程序。

　　第4步：排名

　　用户在搜索框中输入网站托管后，排名程序将调用索引数据库数据，计算排名并将其显示给用户，排名过程将直接与用户进行交互。但是，由于搜索引擎中的数据量巨大，尽管每天可以进行少量更新，但是搜索引擎的排名规则通常会在每天，每周和每月的不同范围内进行更新。

0

2021-05-22

seo优化搜索引擎工作原理

0 个评论

要回复文章请先登录或注册