seo优化搜索引擎工作原理(【SEO实战】[其三]搜索引擎基本工作原理)
优采云 发布时间: 2022-02-08 19:20seo优化搜索引擎工作原理(【SEO实战】[其三]搜索引擎基本工作原理)
【SEO实战】
【第三篇】搜索引擎的基本工作原理
文字:忧郁的胖子
搜索引擎的具体工作过程非常复杂。但大致可以分为三个阶段:
1、爬取和爬取收录:蜘蛛程序查看你的网页信息,获取代码,存入数据库
2、分类预处理:对爬取的页面进行文本提取、中文分词、分类和索引处理
3、展示排名:根据用户提供的关键词计算相关度,然后按照一定的顺序展示
一、爬取和抓取
搜索引擎将有一个特殊的程序来读取每个 网站 页面的代码(或信息)。这个程序在百度叫Spider,Google是一个bot。为了提高爬取和爬取的速度,搜索引擎使用多个这样的程序同时工作。
为了爬取尽可能多的页面,蜘蛛会跟随页面上的链接,从一个页面爬到下一页。整个 Internet 由链接的 网站 和页面组成。理论上,蜘蛛可以爬到链接后的所有页面。但是由于网站之前的链接结构和页面极其复杂,蜘蛛也需要采用一定的爬取规则来遍历所有的页面。
最简单的爬取规则分为两种:一种是深度,一种是广度。
形象地说,它是一个链条和一个树叉。
其实因为蜘蛛的爬取规则是交叉使用的,很多网站页面之间的链接也是交叉链接的。真正意义上的链状或树状链接结构很少存在。都是交联的,可以说是锥形结构。
二、分类预处理
分类预处理,即从蜘蛛从网页中爬取的代码中提取有用的文本信息。并做好分类指标。
提取文本:蜘蛛得到的是代码,搜索引擎必须从这些代码中提取对自然人有用的信息,即网页外部显示的文本信息。在这个阶段,搜索引擎仍然以文本内容为主。
中文分词:分词技术,在国外,用英文,比较好处理。但在中文里,这是一个非常复杂的过程。首先,需要对提取的文本信息进行“减肥”,也就是去掉一些不必要的词,比如某些句子中的“de”这个词。中文分词技术一般基于两种性别:一种是字典,另一种是统计。
比如“搜索引擎优化”这六个词,按照自然词典的方法分为三个词:搜索、引擎、优化。这样一来,三个词就都有意义了。还可以分为:搜索引擎、优化。据统计,当这六个词按此顺序同时出现时,很可能被分成一个词:搜索引擎优化。
索引:索引,也就是分类,一个是某个页面,有哪些词;另一个是,哪些页面出现了这个词。也称为所谓的正向指数和反向指数。
三、显示排名
为了显示排名,它与搜索的 关键词 和 网站 页面的内容的相关性有关。搜索引擎对已爬取的页面进行分段后,对索引进行预处理。同时,还需要对输入的搜索词进行处理。
首先是分词,将搜索词按照一定的算法规则转换成基本关键词的组合。
然后,经过一些其他处理,与搜索引擎数据库中的 网站 页面文件进行匹配。首先,将过滤掉收录从其中分离所有搜索词的基本 关键词 的文件。然后计算搜索词与页面文件的相关度,计算匹配度。
经过一系列复杂的计算,得到了一个死号,基本确定了网站页面的显示顺序。当然,这个顺序并不是显示的最终结果。显示的最终结果是在此基础上进行的轻微调整。而这个微调是去掉一些作弊获得的排名,其次是人工干预。
最终,结果显示在外面。
待续...
下一篇文章将介绍我们可以对这些基础知识做些什么。敬请关注。
更多内容请关注作者——忧郁胖子:跟我一起见证【SEO实战】