搜索引擎优化原理( 蜘蛛所要的工作过程可以分成三个阶段(一))
优采云 发布时间: 2021-12-20 06:10搜索引擎优化原理(
蜘蛛所要的工作过程可以分成三个阶段(一))
搜索引擎的工作过程大致可以分为三个阶段。
(1) 爬行爬行:搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面的HTML代码,并存入数据库。
(2) 预处理:索引程序对抓取的页面数据进行文本提取、中文分词、索引、倒排索引,为排名程序调用做准备。
(3) 排名:用户输入查询后,排名程序调用索引库数据计算相关性,然后生成一定格式的搜索结果页面。
一、爬行爬行1、蜘蛛
当蜘蛛访问页面时,它类似于普通用户使用的浏览器。
当蜘蛛访问任何网站时,它首先会访问网站根目录下的robots.txt文件。
搜索引擎蜘蛛也有标识自己的用户代理名称。
2、追踪链接
最简单的爬行遍历策略分为两种,一种是深度优先,一种是广度优先。
所谓深度优先,是指蜘蛛沿着发现的链接向前爬,直到前面没有其他链接,然后回到第一页,沿着另一个链接向前爬。
广度优先是指当蜘蛛在一个页面上发现多个链接时,它不会一路跟随一个链接,而是爬取页面上所有的一级链接,然后按照二级页面上找到的链接爬行到第三级页面。
理论上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它们就可以抓取整个互联网+。在实际工作中,蜘蛛的带宽资源和时间不是无限的,不可能爬满所有页面。事实上,最大的搜索引擎只抓取和收录互联网的一小部分。
深度优先和广度优先通常是混用的,这样可以照顾到尽可能多的网站(广度优先)和网站(深度优先)的部分内页,同时还要考虑因素例如页面权重、网站 比例、外部链接和更新。
3、吸引蜘蛛
由于蜘蛛无法抓取所有页面,因此蜘蛛要做的就是尽可能多地抓取重要页面。
①网站和页面权重。优质和资深的网站被认为具有更高的权重。这类网站上的页面会被爬得更深,所以更多的内部页面会是收录。
② 页面更新程度。蜘蛛会在多次抓取后了解页面更新的频率。如果页面更新频繁,蜘蛛会更频繁地访问该页面。
③ 导入链接。高质量的链接也往往会增加页面导出链接的深度。
④点击与主页的距离。一般来说,首页在网站上的权重最高。离主页越近,页面权重就越高。
⑤网址结构。短而浅的 URL 也可以直观地被认为在 网站 上具有相对较高的权重。
4、地址库
为了避免重复抓取和抓取网址,搜索引擎会建立一个地址库来记录已发现但未抓取的页面,以及已抓取的页面。蜘蛛找到链接后,不会立即访问,而是安排统一爬取。
5、文件存储
搜索引擎蜘蛛抓取的数据存储在原创页面数据库中。页面数据与用户浏览器获取的 HTML 完全相同。每个 URL 都有一个唯一的文件编号。
6、 爬取时复制内容检测。
蜘蛛在爬取和爬取文件时也会进行一定程度的复制内容检测。当在网站上遇到大量转发或抄袭,权重极低的内容时,很可能无法继续爬取。这也是一些站长在日志文件中发现蜘蛛,但页面一直没有收录的原因之一。
二、预处理1、提取文本
搜索引擎预处理要做的第一件事是从 HTML 文件中去除标签和程序,以提取可用于排名处理的文本内容。
除了可见文本,搜索引擎还会提取一些收录文本信息的特殊代码,例如元标记中的文本、图片中的替代文本、Flash 文件中的替代文本、链接目标文本等。
2、中文分词
分词是中文搜索引擎独有的一步。搜索引擎根据单词存储和处理页面内容和用户查询。英语和其他语言的词之间有空格作为自然分隔,搜索引擎索引程序可以直接将句子分成词组。但是,中文单词之间没有分隔符,句子中的所有单词和单词都连接在一起。搜索引擎首先要区分哪些字符构成一个词,哪些词本身就是一个词。例如,“减肥方法”将分为“减肥”和“方法”两个词。
中文分词方法基本上有两种,一种是基于词典匹配,一种是基于统计。
基于词典匹配的方法是指将一段待分析的文本与预先构建的词典进行匹配,其准确性在很大程度上取决于词典的完整性和更新程度。
基于统计的分词方法是指对大量文本样本进行分析,计算相邻单词出现的统计概率。相邻出现的单词越多,形成单词的可能性就越大。
在实际工作中,分词系统混合使用了这两种方法。
搜索引擎对页面的分词取决于词库的分词算法的规模、准确度和质量,而不是页面本身,所以seo人员很少能做分词。您唯一能做的就是使用某种形式在页面上提示搜索引擎。某些词应作为一个词处理,尤其是在可能存在歧义的情况下,例如页面标题、h1 标签和粗体关键词。
3、去阻止这个词
无论是英文还是中文,页面内容中都会出现一些频繁出现但对内容没有影响的词,如“的”、“地”、“得”等辅助词“啊”、 “呀” 感叹词如“哈”,副词或介词如“因此”、“以”和“缺”。这些词被称为停用词,因为它们对页面的主要含义几乎没有影响。英语中常见的停用词包括 the、a、an、to、of 等。
4、 消除噪音
大多数页面上还有一些对页面主题贡献不大的部分,例如版权声明文本、导航栏、广告等。
去噪的基本方法是根据HTML标签将页面分成块,以区分页眉、导航、正文、页脚、广告等区域。
5、删除
搜索引擎不喜欢重复的东西。如果内容相关,搜索引擎希望在同一个文章中只返回一篇文章。
去重的基本方法是为页面特征关键词计算指纹,即从页面的主要内容中选出最具代表性的部分关键词(往往是出现频率最高的关键词 ) ,然后计算这些关键词数字指纹。这里关键词的选择是经过分词、去停用词、降噪后的。实验表明,通常选择10个特征关键词可以达到比较高的计算精度,选择更多的词对去重精度的提高贡献不大。
了解搜索引擎的去重算法,seo人员应该知道,简单的加“的”、“地”、“得”,改变段落的顺序,也就是所谓的伪原创,逃不过搜索的去重引擎。算法,因为这样的操作不能改变文章关键词的特征,所以指纹没有改变。而且,搜索引擎的去重算法很可能不仅在页面级别,而且在段落级别。混用不同的文章和相交的段落序列不会使转载抄袭成为原创。
6、远期索引
经过以上步骤,搜索引擎就得到了一个能反映页面主要内容的唯一字串。接下来,搜索引擎程序可以提取关键词,按照分词程序对词进行分词,将页面转换成关键词的集合,记录每个关键词在页面上的出现页面出现频率、出现次数、格式、位置等信息,这样每个页面就可以记录为一串关键词集合,其中的词频、格式、位置等权重信息每个 关键词 也被记录下来。
搜索引擎索引程序将词汇结构中的页面和关键词存储到索引数据库中。
每个文件对应一个文件ID,文件的内容表示为一组关键词。事实上,在搜索引擎索引库中,关键词也被转换为关键词 ID。这样的数据结构变成了前向索引。
7、倒排索引
前向索引不能直接用于排名。搜索引擎会将正向索引重构为倒排索引,将文件到关键词的映射转换为关键词到文件的映射。
在倒排索引中,关键词是关键。每个 关键词 对应一系列文件。这个关键词出现在这些文件中,这样当用户搜索某个关键词时,排序程序在倒排索引中定位这个关键词,它可以立即找到所有收录这个的文件关键词。
8、 链接关系计算
搜索引擎抓取页面内容后,必须提前计算:页面上的哪些链接指向其他页面,每个页面上有哪些导入链接,链接中使用了哪些文本。这些复杂的链接指向关系构成了网站和页面的链接权重。
9、特殊文件处理
除了 HTML 文件,搜索引擎通常可以抓取和索引多种基于文本的文件类型,例如 PDF、Word、WPS、XLS、PPT、TXT 文件等。
10、质量判断
这里所说的质量判断收录很多因素,不限于关键词的提取和计算,或者链接的数值计算。例如,对页面内容的判断可能包括用户体验、页面布局、广告布局、语法、页面打开速度等,也可能涉及模式识别、机器学习、人工智能等方法。
三、排名1、搜索词处理
①中文分词。分词原理与页面分词原理相同。查询字符串转换为基于单词的 关键词 组合。
②转到停用词。与索引一样,搜索引擎也需要从搜索词中删除停用词,以最大限度地提高排名的相关性和效率。
③指令处理。查询词切分后,搜索引擎默认的处理方式是在关键词之间使用“与”逻辑。
此外,用户输入的查询词还可能收录一些高级搜索指令,如加号、减号等,搜索引擎需要进行相应的识别和处理。
④ 更正拼写错误。
⑤集成搜索触发器。一些关键词会触发集成搜索。例如,名人的名字经常触发图片和视频内容,当前的热门话题很容易触发信息内容。
⑥搜索框提示。当用户填写搜索框时,搜索引擎会根据热门搜索数据提供多组可能的查询词。
2、文件匹配
搜索词处理后,搜索引擎得到一个基于词的关键词集合。文件匹配阶段是查找所有收录搜索关键词的文件。索引部分提到的倒排索引可以快速完成文件匹配。
3、 初始子集的选择
找到收录所有关键词的匹配文件后,无法进行相关性计算,因为找到的文件往往有几十万,甚至上千万,所以这么多文件的相关性计算是在即时的。, 时间太长了。
事实上,用户不需要知道所有匹配的数十万或数百万个页面。绝大多数用户只会查看前两页。搜索引擎不需要计算这么多页面的相关性,只需要计算最重要的。页面的一部分就可以了。
但问题是,搜索引擎如何在计算相关性之前知道哪1000个文件最相关?因此,最终相关度计算所使用的初始页面的选择必须依赖其他特征而非相关性,其中最重要的是页面权重
4、相关计算
相关性计算是搜索引擎算法中SEO最有趣的部分。
影响相关性的主要因素包括以下几个方面:
①关键词常用度。
越常用的词对搜索词的意义贡献越小,越不常用的词对搜索词的意义贡献越大。
因此,搜索引擎不会对搜索字符串中的关键词 一视同仁,而是根据常用程度对其进行加权。生僻词权重系数高,生词权重系数低。排序算法更关注生僻词
②词频和密度。
一般认为,在没有关键词积累的情况下,页面出现的搜索词越多,密度越高,页面与搜索词的相关度越高。当然,这只是一个粗略的直觉规则。实际情况要复杂得多。出现的频率和密度只是排名因素的一小部分。
③关键词位置和形式。
如索引部分所述,页面关键词的格式和位置记录在索引库中。
④关键词 距离。
分段的 关键词 出现在完全匹配中,表明它与搜索词最相关。
⑤ 链接分析和页面权重。
除了页面本身的因素,页面之间的链接和权重关系也会影响关键词的相关性,其中最重要的就是文字。页面上使用搜索词作为目标文本的导入链接越多,页面的相关性就越高。
链接分析还包括链接源页面本身的主题、目标文本周围的文本等。
5、 排名过滤和调整
经过以上步骤,大致排名就已经确定了。之后,搜索引擎可能会有一些过滤算法。对排名稍作调整,其中最重要的是进行处罚。一些涉嫌作弊的页面可能会根据正常的权重和相关性计算排在第一位,但搜索引擎的惩罚算法可能会在最后一步将这些页面移到后面。
6、 排名显示
所有排名确定后,排名程序调用原页面的标题标签、描述标签和快照日期显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的描述标签。
7、搜索缓存
用户搜索的查询词中有很大一部分是重复的。根据二十八定律,20%的搜索词占80%的搜索次数。
可以说每次搜索都要重新处理排名,是一种极大的浪费。搜索引擎会将最常见的搜索词和结果存储在缓存中。用户搜索时,直接从缓存中调用,无需经过文件匹配和关联计算,大大提高了排序效率,缩短了搜索响应时间。
8、查询和点击日志
搜索引擎会记录用户的IP地址、搜索查询词、搜索时间,点击知道是哪个结果页面,搜索引擎会记录下来并形成日志。这些日志文件中的数据对于搜索引擎判断搜索结果质量、调整搜索算法、预测搜索趋势具有重要意义。
目录导航
搜索引擎的工作过程大致可以分为三个阶段。
一、 爬爬爬行
1、蜘蛛
2、追踪链接
3、吸引蜘蛛
4、地址库
5、文件存储
6、 爬取时复制内容检测。
二、预处理
1、提取文本
2、中文分词
3、去阻止这个词
4、 消除噪音
5、删除
6、远期索引
9、特殊文件处理
10、质量判断
三、 排名
1、搜索词处理
2、文件匹配
3、 初始子集的选择
4、相关计算
5、 排名过滤和调整
6、 排名显示
7、搜索缓存
8、查询和点击日志