seo优化搜索引擎工作原理(互联网信息爆发式增长,如何有效的获取并利用这些信息 )
优采云 发布时间: 2021-09-06 02:13seo优化搜索引擎工作原理(互联网信息爆发式增长,如何有效的获取并利用这些信息
)
互联网信息爆炸式增长,如何有效地获取和使用这些信息是搜索引擎工作的首要环节。数据采集系统作为整个搜索系统的上游,主要负责互联网信息的采集、保存和更新。它像蜘蛛一样在网络中爬行,所以通常被称为“蜘蛛”。比如我们常用的几种常见的搜索引擎蜘蛛,叫做Baiduspdier、Googlebot、搜狗网蜘蛛等。
蜘蛛抓取系统是搜索引擎数据来源的重要保障。如果把网理解为一个有向图,那么蜘蛛的工作过程可以看作是对这个有向图的一次遍历。从一些重要的*敏*感*词*网址开始,通过页面上的超链接,不断地发现和抓取新的网址,尽可能多地抓取有价值的网页。对于像百度这样的大型蜘蛛系统,由于随时都有网页被修改、删除或出现新的超链接的可能,所以需要更新以前蜘蛛爬过的页面,维护一个网址库和页面库。
下图是蜘蛛抓取系统的基本框架,包括链接存储系统、链接选择系统、dns分析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统百度蜘蛛通过本系统的配合完成了对网页的抓取。