搜索引擎蜘蛛的爬行和页面的收录及自动处理方法

优采云发布时间: 2021-07-18 23:21

　　搜索引擎是指蜘蛛程序沿着链接对大量网页进行抓取和抓取。有一个数据库。经过预处理（索引）后，用户在搜索框中输入关键词，搜索引擎排序程序从数据库中选择满足搜索关键词要求的页面。其中蜘蛛爬行、页面收录、排序都是自动处理的。

　　搜索引擎的工作原理和流程大致可以分为前阶段

　　1、Crawling and crawling：搜索引擎蜘蛛通过跟踪链接访问网页，获取页面的html代码并存入数据库。

　　2、预处理（索引）：索引程序对抓取的页面数据进行文本提取、中文分词、索引处理，为排名程序调用做准备。

　　3、排名：用户输入关键词后，排名程序调用数据库数据，计算相关性，然后生成一定格式的搜索结果页面。

　　一、搜索引擎蜘蛛（spider）-指搜索引擎用来抓取和访问页面的程序，也称为机器人。

　　蜘蛛访问任何网站时，都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵守协议，不会抓取被禁止的网址。因此，建议每个网站必须有一个robotx.txt文件，即使允许所有爬取，这个文件也必须存在。（具体原因后面会写）

　　百度蜘蛛：百度蜘蛛+(+)

　　![seowhy](uploads/article/20151208/55439.jpg)

　　二、蜘蛛爬行的两种形式：深度优先和广度优先

　　(1)，深度优先，意思是蜘蛛沿着找到的链接向前爬，直到前面没有链接，然后返回第一页，然后沿着另一个链接向前爬。

　　(2)，广度优先，意思是当蜘蛛在一个页面上发现多个链接时，它不会一路向前跟随一个链接，而是爬取页面上所有的一级链接，然后跟随在二级页面找到的链接爬到三级页面。

　　注意：理论上，无论是深度优先还是广度优先，只要给蜘蛛足够的时间，它就可以爬取整个网站，整个互联网。但在实际工作中，蜘蛛的宽带资源和时间并不是无限的，不可能爬满所有的页面。它只是爬行和收录Internet 的一部分。一般来说，深度优先和广度优先是混合的。

　　3、 Spider 喜欢的页面：网站以及权重高、页面更新快、导入链高等的页面

　　一般认为质量高、资历高的网站权重较高，此类页面在网站上的爬取深度会更高，更多的内页会是收录。

　　一般来说网站在首页的权重较高，也是蜘蛛最常访问的首页。点击离首页越近，页面权重越高，被蜘蛛爬取的几率就越大。建议一个网站遵循3次点击的原则，页面深度不要太深。

　　4、现在蜘蛛爬行爬行网站时，也会进行一定程度的复制内容检测。当它在网站上遇到大量转发或抄袭的内容，权重很低时，它不会继续爬行，它不会收录。这就是为什么很多网站可以从日志中看到蜘蛛爬行，而收录却看不到的原因。

　　三、预处理（索引）过程

　　1、提取文本

　　2、中文分词

　　3、停止这个词

　　停用词是指对内容没有影响的助词（如：de、地、得等）、感叹词（如：啊、啊、哈等）、副词或介词（如如：因此，至，但等）；常见的英语停用词包括 the、a、an、to、of 等。

　　5、去重——就是识别和删除重复内容

　　6、前进索引——简称index，是搜索引擎索引程序将页面和关键词存入词汇结构，存入索引数据库。

　　7、Inverted index-forward 索引不能直接用于排名，因为不能满足用户实时返回排名结果的要求。倒置

　　Index是重构正向索引数据库，就是将“关键词映射对应的文件”转换为

　　用于实时排名的“关键字到文件映射”。

　　8、Link 关系计算-（个人认为）就是计算锚文本与页面的关系，以及锚文本的权重。 Google 是公关部门。

　　9、特殊文件处理

　　四、搜索引擎排名流程

　　1、搜索词处理

　　2、文件匹配

　　3、初始子集的选择

　　4、相关计算

　　5、ranking 过滤和调整

　　6、排名显示

　　7、搜索缓存

　　8、Query 并点击日志

　　我暂时了解这些，我们可以稍后更新。

0

2021-07-18

seo优化搜索引擎工作原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎蜘蛛的爬行和页面的收录及自动处理方法

0 个评论

发起人