seo优化搜索引擎工作原理(分为有新的收录和跟踪链接的处理方法介绍)

优采云 发布时间: 2021-11-04 10:16

  seo优化搜索引擎工作原理(分为有新的收录和跟踪链接的处理方法介绍)

  搜索引擎的工作原理大致可以分为三个步骤

  1、 抓取信息,搜索引擎蜘蛛通过跟踪链接查找和访问页面,读取页面代码,并存入数据库

  2、 预处理,索引程序对爬取的页面进行排序,提取、分析、排序,以便有搜索需求时调用。

  3、 排名,用户搜索后,排名程序会调用处理后的数据计算相关性,并作为搜索结果显示。

  一、获取信息

  1、Spider:搜索引擎用来抓取和访问页面的程序称为蜘蛛。

  1) 会先访问robots.txt文件,这是一个防止蜘蛛爬取链接的协议。

  2)百度蜘蛛(baiduspider)、360蜘蛛(360spider)、搜狗蜘蛛(sogou+web+robot)

  二、追踪链接

  为了在互联网上抓取尽可能多的页面,蜘蛛会跟随网页上的链接,抓取从一个页面到另一个链接的链接。这也是蜘蛛名称的由来,就像蜘蛛在蜘蛛网上爬行一样。

  有两种类型:

  1、深度链接:一路向前爬,当最后没有人时,回到第一个链接,开始爬第二个。

  2、广度链接:一层一层爬。

  (ps做个图来解释)

  所以,为了我们自己的网站更好收录,我们尽量去处理深链接和宽链接。不要让链接中断。还必须采用不同的方法来吸引蜘蛛爬行。

  1、 网页的质量和重量。质量越高网站,爬取深度越深,内页越好收录

  2、 页面的更新。需要不断的给网站添加新的页面,养成蜘蛛的习惯。如果你网站爬取,内容总是一样的。那么,后面再分析,就不用来了。不会有新的 收录。(和喂蜘蛛网的道理一样)

  3、导入链接。将蜘蛛抓取的其他网页的链接导入到您要抓取的页面,利于抓取。

  4、离首页的距离,离首页越近,获取的频率就越高,收录的效果就越好。

  5、提交地址,可以使用sitemap提交,这样蜘蛛爬行速度比普通爬行略快。

  6、 避免重复内容,重复内容不是必须的。

  三、预处理

  互联网信息量巨大,无法在您查询时实时提供符合您要求的信息。因此,信息将被提前处理以进行备份。这就是为什么在站长中显示收录,但在网络搜索中没有反馈的原因。

  1、提取文本

  搜索引擎会从代码中提取文本、标签、alt 属性文本、标题文本、锚文本(带链接的文本),其他一些不可用的程序会在提取过程中被移除。

  2、 分词,因为英文单词有空格,中文分词不是那么明显。该程序将根据自己的词库和互联网用户的搜索进行区分。如果说你的关键词可能导致百度分词不当,我们可以把这个关键词加粗,表示是一个词。

  3、去一些不必要的动词粒子。例如:啊、、德等对整个页面没有实际意义的词,蜘蛛会去掉,提取有用的信息。

  4、 去重信息。如果有两个页面的文章相同,则为同一个页面。因此,当我们搜索某个东西时,在百度上不会看到两个信息完全相同的页面。

  5、索引排序

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线