seo优化搜索引擎工作原理(【SEO实战】[其三]搜索引擎基本工作原理)

优采云 发布时间: 2022-02-08 19:20

  seo优化搜索引擎工作原理(【SEO实战】[其三]搜索引擎基本工作原理)

  【SEO实战】

  【第三篇】搜索引擎的基本工作原理

  文字:忧郁的胖子

  搜索引擎的具体工作过程非常复杂。但大致可以分为三个阶段:

  1、爬取和爬取收录:蜘蛛程序查看你的网页信息,获取代码,存入数据库

  2、分类预处理:对爬取的页面进行文本提取、中文分词、分类和索引处理

  3、展示排名:根据用户提供的关键词计算相关度,然后按照一定的顺序展示

  一、爬取和抓取

  搜索引擎将有一个特殊的程序来读取每个 网站 页面的代码(或信息)。这个程序在百度叫Spider,Google是一个bot。为了提高爬取和爬取的速度,搜索引擎使用多个这样的程序同时工作。

  为了爬取尽可能多的页面,蜘蛛会跟随页面上的链接,从一个页面爬到下一页。整个 Internet 由链接的 网站 和页面组成。理论上,蜘蛛可以爬到链接后的所有页面。但是由于网站之前的链接结构和页面极其复杂,蜘蛛也需要采用一定的爬取规则来遍历所有的页面。

  最简单的爬取规则分为两种:一种是深度,一种是广度。

  形象地说,它是一个链条和一个树叉。

  其实因为蜘蛛的爬取规则是交叉使用的,很多网站页面之间的链接也是交叉链接的。真正意义上的链状或树状链接结构很少存在。都是交联的,可以说是锥形结构。

  二、分类预处理

  分类预处理,即从蜘蛛从网页中爬取的代码中提取有用的文本信息。并做好分类指标。

  提取文本:蜘蛛得到的是代码,搜索引擎必须从这些代码中提取对自然人有用的信息,即网页外部显示的文本信息。在这个阶段,搜索引擎仍然以文本内容为主。

  中文分词:分词技术,在国外,用英文,比较好处理。但在中文里,这是一个非常复杂的过程。首先,需要对提取的文本信息进行“减肥”,也就是去掉一些不必要的词,比如某些句子中的“de”这个词。中文分词技术一般基于两种性别:一种是字典,另一种是统计。

  比如“搜索引擎优化”这六个词,按照自然词典的方法分为三个词:搜索、引擎、优化。这样一来,三个词就都有意义了。还可以分为:搜索引擎、优化。据统计,当这六个词按此顺序同时出现时,很可能被分成一个词:搜索引擎优化。

  索引:索引,也就是分类,一个是某个页面,有哪些词;另一个是,哪些页面出现了这个词。也称为所谓的正向指数和反向指数。

  三、显示排名

  为了显示排名,它与搜索的 关键词 和 网站 页面的内容的相关性有关。搜索引擎对已爬取的页面进行分段后,对索引进行预处理。同时,还需要对输入的搜索词进行处理。

  首先是分词,将搜索词按照一定的算法规则转换成基本关键词的组合。

  然后,经过一些其他处理,与搜索引擎数据库中的 网站 页面文件进行匹配。首先,将过滤掉收录从其中分离所有搜索词的基本 关键词 的文件。然后计算搜索词与页面文件的相关度,计算匹配度。

  经过一系列复杂的计算,得到了一个死号,基本确定了网站页面的显示顺序。当然,这个顺序并不是显示的最终结果。显示的最终结果是在此基础上进行的轻微调整。而这个微调是去掉一些作弊获得的排名,其次是人工干预。

  最终,结果显示在外面。

  待续...

  下一篇文章将介绍我们可以对这些基础知识做些什么。敬请关注。

  更多内容请关注作者——忧郁胖子:跟我一起见证【SEO实战】

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线