搜索引擎蜘蛛的爬行是怎么做的呢?【豹子融】
优采云 发布时间: 2021-05-22 20:13搜索引擎蜘蛛的爬行是怎么做的呢?【豹子融】
第一步:爬行
搜索引擎通过特定的软件模式跟踪到网页的链接,从一个链接爬行到另一个链接,就像在蜘蛛网上爬行的蜘蛛一样,因此被称为“蜘蛛”或“机器人”。搜索引擎蜘蛛的爬网是按照一定的规则输入的,它需要遵循一些命令或文件的内容。
第2步:获取并存储
搜索引擎通过蜘蛛跟踪链接爬网到网页,并将爬网的数据存储在原创页面数据库中。页面数据与用户浏览器获得的HTML完全相同。搜索引擎蜘蛛在爬网页面时还会执行某些重复的内容检测。一旦他们在网站上遇到很多抄袭,采集或复制的内容,而且重量很轻,它们很可能会停止爬行。
第3步:预处理
搜索引擎将对蜘蛛抓取的网页进行不同的预处理。
①提取文字
②汉语分词
③去停词
④消除噪音(搜索引擎需要识别并消除这些噪音,例如版权声明文本,导航栏,广告等...
⑤前向索引
⑥倒排索引
⑦链接关系计算
⑧特殊文件处理
除了HTML文件之外,搜索引擎通常还可以抓取和索引各种基于文本的文件类型,例如PDF,Word,WPS,XLS,PPT,TXT文件等。我们经常在搜索中看到这些文件类型结果。但是,搜索引擎无法处理图片,视频和Flash等非文本内容,也无法执行脚本和程序。
第4步:排名
用户在搜索框中输入网站托管后,排名程序将调用索引数据库数据,计算排名并将其显示给用户,排名过程将直接与用户进行交互。但是,由于搜索引擎中的数据量巨大,尽管每天可以进行少量更新,但是搜索引擎的排名规则通常会在每天,每周和每月的不同范围内进行更新。