搜索引擎蜘蛛的爬行和页面的收录及自动处理方法
优采云 发布时间: 2021-07-18 23:21搜索引擎蜘蛛的爬行和页面的收录及自动处理方法
搜索引擎是指蜘蛛程序沿着链接对大量网页进行抓取和抓取。有一个数据库。经过预处理(索引)后,用户在搜索框中输入关键词,搜索引擎排序程序从数据库中选择满足搜索关键词要求的页面。其中蜘蛛爬行、页面收录、排序都是自动处理的。
搜索引擎的工作原理和流程大致可以分为前阶段
1、Crawling and crawling:搜索引擎蜘蛛通过跟踪链接访问网页,获取页面的html代码并存入数据库。
2、预处理(索引):索引程序对抓取的页面数据进行文本提取、中文分词、索引处理,为排名程序调用做准备。
3、排名:用户输入关键词后,排名程序调用数据库数据,计算相关性,然后生成一定格式的搜索结果页面。
一、搜索引擎蜘蛛(spider)-指搜索引擎用来抓取和访问页面的程序,也称为机器人。
蜘蛛访问任何网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不会抓取被禁止的网址。因此,建议每个网站必须有一个robotx.txt文件,即使允许所有爬取,这个文件也必须存在。 (具体原因后面会写)
百度蜘蛛:百度蜘蛛+(+)

二、蜘蛛爬行的两种形式:深度优先和广度优先
(1),深度优先,意思是蜘蛛沿着找到的链接向前爬,直到前面没有链接,然后返回第一页,然后沿着另一个链接向前爬。
(2),广度优先,意思是当蜘蛛在一个页面上发现多个链接时,它不会一路向前跟随一个链接,而是爬取页面上所有的一级链接,然后跟随在二级页面找到的链接爬到三级页面。
注意:理论上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它就可以爬取整个网站,整个互联网。但在实际工作中,蜘蛛的宽带资源和时间并不是无限的,不可能爬满所有的页面。它只是爬行和收录Internet 的一部分。一般来说,深度优先和广度优先是混合的。
3、 Spider 喜欢的页面:网站 以及权重高、页面更新快、导入链高等的页面
一般认为质量高、资历高的网站权重较高,此类页面在网站上的爬取深度会更高,更多的内页会是收录。
一般来说网站在首页的权重较高,也是蜘蛛最常访问的首页。点击离首页越近,页面权重越高,被蜘蛛爬取的几率就越大。建议一个网站遵循3次点击的原则,页面深度不要太深。
4、现在蜘蛛爬行爬行网站时,也会进行一定程度的复制内容检测。当它在网站上遇到大量转发或抄袭的内容,权重很低时,它不会继续爬行,它不会收录。这就是为什么很多网站可以从日志中看到蜘蛛爬行,而收录却看不到的原因。
三、预处理(索引)过程
1、提取文本
2、中文分词
3、停止这个词
停用词是指对内容没有影响的助词(如:de、地、得等)、感叹词(如:啊、啊、哈等)、副词或介词(如如:因此,至,但等);常见的英语停用词包括 the、a、an、to、of 等。
4、eliminate noise-指对页面主题贡献不大的部分,如版权声明文字、导航栏、广告等。
5、去重——就是识别和删除重复内容
6、前进索引——简称index,是搜索引擎索引程序将页面和关键词存入词汇结构,存入索引数据库。
7、Inverted index-forward 索引不能直接用于排名,因为不能满足用户实时返回排名结果的要求。倒置
Index是重构正向索引数据库,就是将“关键词映射对应的文件”转换为
用于实时排名的“关键字到文件映射”。
8、Link 关系计算-(个人认为)就是计算锚文本与页面的关系,以及锚文本的权重。 Google 是公关部门。
9、特殊文件处理
四、搜索引擎排名流程
1、搜索词处理
2、文件匹配
3、初始子集的选择
4、相关计算
5、ranking 过滤和调整
6、排名显示
7、搜索缓存
8、Query 并点击日志
我暂时了解这些,我们可以稍后更新。