【SEO实战】[其三]搜索引擎基本工作工作原理
优采云 发布时间: 2021-06-17 22:42【SEO实战】[其三]搜索引擎基本工作工作原理
【SEO实战】
【第三部分】搜索引擎的基本工作原理
文字:忧郁的胖子
搜索引擎的具体工作过程非常复杂。但大体上可以分为三个阶段:
1、crawlgrab收录:蜘蛛程序,检查你的网页信息,获取代码,并存入数据库
2、Classification 预处理:对抓取到的页面进行文本提取、中文分词、分类索引。
3、显示排名:根据用户提供的关键词,计算相关性,然后按一定顺序显示
一、crawling 和爬行
搜索引擎会有一个特殊的程序来读取每个网站页面的代码(或信息)。这个程序在百度叫Spider,谷歌叫bot。搜索引擎为了提高抓取和抓取的速度,会使用多个这样的程序同时工作。
为了在互联网上抓取尽可能多的页面,蜘蛛会跟随页面上的链接,从一个页面爬到下一个页面。整个互联网由网站和相互链接的页面组成。理论上,蜘蛛可以沿着链接爬到所有页面。但是,由于网站及其之前的页面极其复杂的链接结构,蜘蛛也需要采用一定的爬取规则来遍历所有页面。
最简单的爬取规则分为两种:一种是深度,一种是广度。
说得形象点,就是链状和树叉状。
其实是因为蜘蛛的爬取规则是交叉使用的,所以网站页面之间的很多链接也是交叉使用的。真正意义上的链状或树状链接结构很少存在。它们都是交联的,可以称为锥形结构。
二、分类预处理
分类预处理,即从蜘蛛抓取的网页代码中提取有用的文本信息。并做好分类索引。
提取文本:蜘蛛得到的都是代码。搜索引擎必须从这些代码中提取对自然人有用的信息,即网页外部显示的文本信息。在这个阶段,搜索引擎仍然专注于文本内容。
中文分词:分词技术,在国外用英文更容易处理。但在中文中,这是一个非常复杂的过程。首先,提取的文本信息需要是“减肥”,也就是一些不必要的文本,比如某些句子中的“的”这个词。中文分词技术一般基于两性:一个是字典,一个是统计。
比如“搜索引擎优化”这六个词,按照自然词典分类分为三个词:搜索、引擎、优化。这样,三个词都有意义。也可分为:搜索引擎、优化。据统计,当这六个词同时以这个顺序出现时,最有可能被归为一个词:搜索引擎优化。
Index:索引,即分类。一个是某一页,里面有什么词;另一个是单词出现的页面。也称为所谓的正向索引和反向索引。
三、显示排名
为了显示排名,它涉及到搜索到的关键词和网站页面内容的相关性。搜索引擎对抓取到的页面进行分词后,对索引进行预处理。同时,输入的搜索词也需要处理。
首先是分词,按照一定的算法规则,将搜索词转换为基本的关键词组合。
然后,经过一些其他的处理,与搜索引擎数据库中的网站页面文件进行匹配。首先,所有搜索词中收录基本关键词 的文件将被过滤掉。然后将搜索词与页面文件相关联,计算匹配度。
经过一系列复杂的计算,得到一个死号,基本决定了网站页面的显示顺序。当然,这个序列并不是最终显示的结果。最终结果在此基础上略有调整。而这个微调,一是去除部分作弊获得的排名,二是人工干预。
最后,将结果显示在外面。
待续...
下一篇文章将重点介绍这些基本原则以及我们可以做什么。敬请关注。
更多内容请关注作者-忧郁胖子:跟我一起见证【SEO实战】