【SEO实战】[其三]搜索引擎基本工作工作原理

优采云 发布时间: 2021-06-17 22:42

  【SEO实战】[其三]搜索引擎基本工作工作原理

  【SEO实战】

  【第三部分】搜索引擎的基本工作原理

  文字:忧郁的胖子

  搜索引擎的具体工作过程非常复杂。但大体上可以分为三个阶段:

  1、crawlgrab收录:蜘蛛程序,检查你的网页信息,获取代码,并存入数据库

  2、Classification 预处理:对抓取到的页面进行文本提取、中文分词、分类索引。

  3、显示排名:根据用户提供的关键词,计算相关性,然后按一定顺序显示

  一、crawling 和爬行

  搜索引擎会有一个特殊的程序来读取每个网站页面的代码(或信息)。这个程序在百度叫Spider,谷歌叫bot。搜索引擎为了提高抓取和抓取的速度,会使用多个这样的程序同时工作。

  为了在互联网上抓取尽可能多的页面,蜘蛛会跟随页面上的链接,从一个页面爬到下一个页面。整个互联网由网站和相互链接的页面组成。理论上,蜘蛛可以沿着链接爬到所有页面。但是,由于网站及其之前的页面极其复杂的链接结构,蜘蛛也需要采用一定的爬取规则来遍历所有页面。

  最简单的爬取规则分为两种:一种是深度,一种是广度。

  说得形象点,就是链状和树叉状。

  

  

  其实是因为蜘蛛的爬取规则是交叉使用的,所以网站页面之间的很多链接也是交叉使用的。真正意义上的链状或树状链接结构很少存在。它们都是交联的,可以称为锥形结构。

  

  二、分类预处理

  分类预处理,即从蜘蛛抓取的网页代码中提取有用的文本信息。并做好分类索引。

  提取文本:蜘蛛得到的都是代码。搜索引擎必须从这些代码中提取对自然人有用的信息,即网页外部显示的文本信息。在这个阶段,搜索引擎仍然专注于文本内容。

  中文分词:分词技术,在国外用英文更容易处理。但在中文中,这是一个非常复杂的过程。首先,提取的文本信息需要是“减肥”,也就是一些不必要的文本,比如某些句子中的“的”这个词。中文分词技术一般基于两性:一个是字典,一个是统计。

  比如“搜索引擎优化”这六个词,按照自然词典分类分为三个词:搜索、引擎、优化。这样,三个词都有意义。也可分为:搜索引擎、优化。据统计,当这六个词同时以这个顺序出现时,最有可能被归为一个词:搜索引擎优化。

  Index:索引,即分类。一个是某一页,里面有什么词;另一个是单词出现的页面。也称为所谓的正向索引和反向索引。

  三、显示排名

  为了显示排名,它涉及到搜索到的关键词和网站页面内容的相关性。搜索引擎对抓取到的页面进行分词后,对索引进行预处理。同时,输入的搜索词也需要处理。

  首先是分词,按照一定的算法规则,将搜索词转换为基本的关键词组合。

  然后,经过一些其他的处理,与搜索引擎数据库中的网站页面文件进行匹配。首先,所有搜索词中收录基本关键词 的文件将被过滤掉。然后将搜索词与页面文件相关联,计算匹配度。

  经过一系列复杂的计算,得到一个死号,基本决定了网站页面的显示顺序。当然,这个序列并不是最终显示的结果。最终结果在此基础上略有调整。而这个微调,一是去除部分作弊获得的排名,二是人工干预。

  最后,将结果显示在外面。

  待续...

  下一篇文章将重点介绍这些基本原则以及我们可以做什么。敬请关注。

  更多内容请关注作者-忧郁胖子:跟我一起见证【SEO实战】

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线