互联网信息爆发式增长，如何有效的获取并利用

优采云发布时间: 2021-04-29 03:12

　　Internet信息的爆炸性增长，如何有效地获取和使用此信息是搜索引擎工作的主要环节。作为整个搜索系统的上游，数据捕获系统主要负责Internet信息的采集，保存和更新。它像蜘蛛一样在网络上爬行，因此通常称为“蜘蛛”。例如，我们常用的几种常见搜索引擎蜘蛛称为Baiduspdier，Googlebot，Sogou Web Spider等。

　　蜘蛛搜寻系统是搜索引擎数据源的重要保证。如果将网络理解为有向图，则蜘蛛网的工作过程可以视为对该有向图的遍历。从一些重要的*敏*感*词*URL开始，通过页面上的超链接，不断发现和搜寻新的URL，并搜寻尽可能多的有价值的网页。对于像百度这样的大型蜘蛛系统，由于总是存在修改，删除网页或出现新超链接的可能性，因此有必要更新蜘蛛过去爬行的页面，并维护URL库和Page库。

　　下图是蜘蛛爬网系统的基本框架，包括链接存储系统，链接选择系统，dns分析服务系统，爬网调度系统，Web分析系统，链接提取系统，链接分析系统，Web存储系统。 Baiduspider通过该系统的协作完成了Internet页面的爬网。

0

2021-04-29

百度搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

互联网信息爆发式增长，如何有效的获取并利用

0 个评论

发起人