搜索引擎蜘蛛的爬行是怎么做的呢?【豹子融】

优采云 发布时间: 2021-05-22 20:13

  搜索引擎蜘蛛的爬行是怎么做的呢?【豹子融】

  第一步:爬行

  搜索引擎通过特定的软件模式跟踪到网页的链接,从一个链接爬行到另一个链接,就像在蜘蛛网上爬行的蜘蛛一样,因此被称为“蜘蛛”或“机器人”。搜索引擎蜘蛛的爬网是按照一定的规则输入的,它需要遵循一些命令或文件的内容。

  第2步:获取并存储

  搜索引擎通过蜘蛛跟踪链接爬网到网页,并将爬网的数据存储在原创页面数据库中。页面数据与用户浏览器获得的HTML完全相同。搜索引擎蜘蛛在爬网页面时还会执行某些重复的内容检测。一旦他们在网站上遇到很多抄袭,采集或复制的内容,而且重量很轻,它们很可能会停止爬行。

  第3步:预处理

  搜索引擎将对蜘蛛抓取的网页进行不同的预处理。

  ①提取文字

  ②汉语分词

  ③去停词

  ④消除噪音(搜索引擎需要识别并消除这些噪音,例如版权声明文本,导航栏,广告等...

  ⑤前向索引

  ⑥倒排索引

  ⑦链接关系计算

  ⑧特殊文件处理

  除了HTML文件之外,搜索引擎通常还可以抓取和索引各种基于文本的文件类型,例如PDF,Word,WPS,XLS,PPT,TXT文件等。我们经常在搜索中看到这些文件类型结果。但是,搜索引擎无法处理图片,视频和Flash等非文本内容,也无法执行脚本和程序。

  第4步:排名

  用户在搜索框中输入网站托管后,排名程序将调用索引数据库数据,计算排名并将其显示给用户,排名过程将直接与用户进行交互。但是,由于搜索引擎中的数据量巨大,尽管每天可以进行少量更新,但是搜索引擎的排名规则通常会在每天,每周和每月的不同范围内进行更新。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线