seo优化搜索引擎工作原理(分为有新的收录和跟踪链接的处理方法介绍)

优采云发布时间: 2021-11-04 10:16

　　搜索引擎的工作原理大致可以分为三个步骤

　　1、抓取信息，搜索引擎蜘蛛通过跟踪链接查找和访问页面，读取页面代码，并存入数据库

　　2、预处理，索引程序对爬取的页面进行排序，提取、分析、排序，以便有搜索需求时调用。

　　3、排名，用户搜索后，排名程序会调用处理后的数据计算相关性，并作为搜索结果显示。

　　一、获取信息

　　1、Spider：搜索引擎用来抓取和访问页面的程序称为蜘蛛。

　　1）会先访问robots.txt文件，这是一个防止蜘蛛爬取链接的协议。

　　2）百度蜘蛛（baiduspider）、360蜘蛛（360spider）、搜狗蜘蛛（sogou+web+robot）

　　二、追踪链接

　　为了在互联网上抓取尽可能多的页面，蜘蛛会跟随网页上的链接，抓取从一个页面到另一个链接的链接。这也是蜘蛛名称的由来，就像蜘蛛在蜘蛛网上爬行一样。

　　有两种类型：

　　1、深度链接：一路向前爬，当最后没有人时，回到第一个链接，开始爬第二个。

　　2、广度链接：一层一层爬。

　　（ps做个图来解释）

　　所以，为了我们自己的网站更好收录，我们尽量去处理深链接和宽链接。不要让链接中断。还必须采用不同的方法来吸引蜘蛛爬行。

　　1、网页的质量和重量。质量越高网站，爬取深度越深，内页越好收录

　　2、页面的更新。需要不断的给网站添加新的页面，养成蜘蛛的习惯。如果你网站爬取，内容总是一样的。那么，后面再分析，就不用来了。不会有新的收录。（和喂蜘蛛网的道理一样）

　　3、导入链接。将蜘蛛抓取的其他网页的链接导入到您要抓取的页面，利于抓取。

　　4、离首页的距离，离首页越近，获取的频率就越高，收录的效果就越好。

　　5、提交地址，可以使用sitemap提交，这样蜘蛛爬行速度比普通爬行略快。

　　6、避免重复内容，重复内容不是必须的。

　　三、预处理

　　互联网信息量巨大，无法在您查询时实时提供符合您要求的信息。因此，信息将被提前处理以进行备份。这就是为什么在站长中显示收录，但在网络搜索中没有反馈的原因。

　　1、提取文本

　　搜索引擎会从代码中提取文本、标签、alt 属性文本、标题文本、锚文本（带链接的文本），其他一些不可用的程序会在提取过程中被移除。

　　2、分词，因为英文单词有空格，中文分词不是那么明显。该程序将根据自己的词库和互联网用户的搜索进行区分。如果说你的关键词可能导致百度分词不当，我们可以把这个关键词加粗，表示是一个词。

　　3、去一些不必要的动词粒子。例如：啊、、德等对整个页面没有实际意义的词，蜘蛛会去掉，提取有用的信息。

　　4、去重信息。如果有两个页面的文章相同，则为同一个页面。因此，当我们搜索某个东西时，在百度上不会看到两个信息完全相同的页面。

　　5、索引排序

0

2021-11-04

seo优化搜索引擎工作原理

0 个评论

要回复文章请先登录或注册