搜索引擎优化(seo)的基本工作模块(SEO优化:手动输入*敏*感*词*网站的搜索引擎的工作原理及方法)
优采云 发布时间: 2021-11-19 21:13搜索引擎优化(seo)的基本工作模块(SEO优化:手动输入*敏*感*词*网站的搜索引擎的工作原理及方法)
(1)手动输入*敏*感*词*网站;
(2)蜘蛛抓取页面后,从HTML中解析出新的链接URL,并与地址库中的数据进行比较。如果地址库中没有网站,它会存储在地址库中。
(3)站长通过接口提交的网址;
(4)站长通过XML网站地图和站长平台提交的网站;
(5)文件存储。搜索引擎蜘蛛抓取的数据存储在原创页面数据库中。
(6)爬行时检测复制的内容。
搜索引擎的工作原理
二、预处理
在一些SEO经验分享中,“预处理”也称为“索引”,因为索引的主要内容是预处理:
1.提取文本
我们在原创页面数据库中存储的是HTML代码,它不仅收录用户在页面上可以直接看到的文本内容,还收录其他JS、AJAX等搜索引擎无法使用的排名内容。首先要做的是从HTML文件中去除这些无法解析的内容,提取出可以排序的文本内容。
2.中文分词
分词是中文搜索引擎独有的一步,它在存储/处理页面/用户搜索时基于词。基本上有两种方法:一种是基于字典匹配,一种是基于统计。
3.去停止这个词
无论是英文还是中文,页面上都会有一些出现频率较高,对内容没有影响的词,如:、啊、哈等,这些词称为停用词。搜索引擎会删除这些停用词,使数据主体更加突出,减少不必要的计算。
4.去除干扰词
大多数页面上的某些内容对页面主题的贡献不大。比如页面A的内容是一篇关于百度的文章网站文章,关键词就是百度网站。但是,除了说明该内容的主要内容外,还有页眉、页脚和广告区域共同构成了该页面。
这些部分出现的文字可能与页面内容本身的关键词无关。搜索引擎的排序程序在对数据进行排序时无法参考这些噪声内容,因此需要在预处理阶段对这些噪声进行区分和消除。消除噪音的方法是根据HTML标签将页面划分为块,例如页眉标签和页脚标签。删除这些区域后,剩下的就是页面的主要内容。
5.删除内容
也就是说,重复的网页被删除,同一篇文章文章经常在同一个网站的不同网站/不同地址重复出现。为了用户的体验,重复数据删除是必要的,搜索引擎会识别并删除页面上的重复内容。这个过程也叫内容去重,也是影响百度网站收录的要点之一。
6.远期指数
简称索引。经过上述步骤(提取、分词、去噪、去重),搜索引擎最终得到能够反映页面主要内容和词单位的唯一内容。
接下来,搜索引擎的索引程序根据分词程序划分的词,提取关键词,将页面转换成关键词的集合。同时需要记录每个关键词在页面上的出现频率、出现频率、格式(如标题标签、黑体字、H标签、锚文本等)和位置(如页面的第一段等)。)。搜索引擎的索引程序会将页面和关键词组成的词库结构存储在索引数据库中。
7.倒排索引
前向索引不能直接用于排名。假设用户搜索关键字。如果只有前向索引,排序程序需要扫描索引数据库中的所有文件,找到收录关键字的文件,然后计算相关性。
这种计算方式不能满足实时返回排名结果的要求。搜索引擎会提前对所有关键词进行分类,将正向索引库重构为反向索引,将文件到关键词的映射转换为关键词到文件的映射。在倒排索引中,键是主键,每个键对应一系列文件。比如下面第一行右侧显示的文件都是收录关键字1的文件。这样,当用户搜索关键词时,排序程序将关键词定位到倒排索引,可以立即找到关键词的所有文件。
三、搜索结果排名
前一个蜘蛛抓取页面后,数据预处理和索引程序计算出倒排索引,搜索引擎随时准备处理用户搜索。用户在搜索框中输入想要查询的内容后,排名程序调用索引库的数据,计算排名后将内容显示在搜索结果页面上。
1、搜索词处理
搜索引擎收到用户输入的搜索词后,需要对搜索词进行一些处理,然后才能进入排名过程。搜索词处理过程包括:中文分词、去停用词、指令处理。
完成上述步骤后,搜索引擎对剩余内容的默认处理方式是在关键词之间使用“与”逻辑。
例如,用户在搜索框中输入“如何减肥”。分词和停用词之后,剩下的关键词是“减肥”和“方法”。搜索引擎默认对用户要查询的内容进行排序,内容包括“减肥”和“方法”。
2、文件匹配
搜索词经过上面的处理后,搜索引擎得到一个关键词以单位为单位的集合。进入下一阶段:文件匹配阶段,即查找所有收录关键词的文件。索引部分提到的倒排索引可以快速完成文件匹配。假设用户搜索“关键词1 关键词2”,排名程序只需要在倒排索引中找到“关键词1”和“关键词2”这些两个词,可以分别找到所有收录这两个词的页面文件。
3、初始子集的选择
找到收录所有关键词的匹配文件后,无法对这些文件进行关联计算,因为在实际情况中,经常会发现几个十、几百万甚至几千万的文件。实时对这么多文件进行相关计算需要很长时间。百度搜索引擎最多只会返回760条结果,所以只需要计算前760条结果的相关度即可满足要求。
由于所有匹配的文件已经具有最基本的相关性(这些文件收录所有查询关键词),搜索引擎会先过滤掉一个权重较高的1000页的文件,并通过过滤权重子集初始化一个,而然后在这个子集中的页面上执行相关计算。
4、相关计算
选择带有权重的初始子集后,就是计算子集中页面的关键词相关性的步骤。计算相关性是排名过程中最重要的一步。影响相关性的主要因素包括以下几个方面:
① 关键词 常用
分词后,多个关键词对整个搜索字符串的意义有不同的贡献。使用频率越高的词对搜索词的含义的贡献越小,而使用频率越低的词对搜索词的含义的贡献越大。因此,搜索引擎不会对搜索字符串中的关键词 一视同仁,而是根据常用程度对其进行加权。不常用词权重系数高,常用词权重系数低。排名算法更关注不常用的词。
②词频与密度
一般认为,在没有关键词积累的情况下,搜索词在页面上出现的频率更高,密度越高,页面与搜索词的相关性就越高。当然,这只是一般规律,实际情况可能并非如此,因此相关性计算中还有其他因素。频率和密度只是部分因素,其重要性越来越低。
③ 关键词 位置和形式
如索引部分所述,页面关键词的格式和位置记录在索引库中。关键词出现在更重要的位置,如标题标签、粗体、H1等,说明该页面与关键词的相关度更高。这部分是页面的SEO应该解决的。
④ 关键词 距离
切分后出现关键词 的完全匹配表明它与搜索词最相关。例如,在搜索“减肥方法”时,页面上连续完整出现的“减肥方法”四个词的相关性最高。如果“减肥”和“方法”这两个词不连续匹配,它们看起来更接近,也被搜索引擎认为稍微更相关。
⑤ 链接分析和页面权重
除了页面本身的因素,页面之间的链接和权重关系也会影响关键词的相关性,其中最重要的就是锚文本。将搜索词作为页面锚文本的导入链接越多,页面的相关性就越高。链接分析还包括链接源页面本身的内容主题、锚文本周围的文本等。
总结:以上网站Map SEO详细分享了搜索引擎的工作原理。了解这些知识对我们做百度网站收录有很重要的意义,比如标题要收录用户可能搜索的词。, 文字适当体现关键词 或拆分词可以帮助判断内容与用户搜索词的相关性。