百度搜索引擎优化原理(关于HTML文件中的一些常见问题及预处理方法介绍)
优采云 发布时间: 2021-09-02 05:13百度搜索引擎优化原理(关于HTML文件中的一些常见问题及预处理方法介绍)
①手动输入*敏*感*词*网站;
②蜘蛛抓取页面后,从HTML中解析出新的链接URL,并与地址库中的数据进行比较。如果地址库中没有URL,则存储在要访问的地址库中;
③ 站长通过界面提交的网址;
④站长通过XML网站Map和站长平台提交的网址;
5) 文件存储。搜索引擎蜘蛛抓取的数据存储在原创页面数据库中。
6) 爬取时进行复制内容检测。
二、预处理
在一些SEO经验分享中,“预处理”也被称为“索引”,因为索引是预处理中最重要的内容:
1、提取文本
我们在原创页面数据库中存储的是 HTML 代码。在HTML代码中,不仅是用户在页面上可以直接看到的文字内容,JS、AJAX等其他搜索引擎也无法进行排名。内容。首先要做的是从 HTML 文件中移除这些无法解析的内容,并提取出可用于排名处理步骤的文本内容。
2、中文分词
分词对于中文搜索引擎来说是一个独特的步骤。搜索引擎根据单词存储/处理页面/用户搜索。基本上有两种方法:一种是基于字典匹配,一种是基于统计。
3、停止这个词
无论是英文还是中文,都会有一些词出现在页面上频繁出现,对内容没有影响,例如:,啊,哈等,这些词被称为停用词。搜索引擎会去除这些停用词,让数据主题更加突出,减少不必要的计算。
4、去噪音词
大多数页面中都有这样一部分内容对页面主题贡献不大。比如页面A的内容是一篇关于百度网站收录文章的文章,关键词是百度网站收录,但是除了解释网站收录的主要内容之外,还有组成此页面的页眉、页脚和广告等区域。
这些部分出现的词可能与页面内容本身的关键词无关。搜索引擎的排名程序在对数据进行排名时不能参考这些噪音内容。有必要在预处理阶段排除这些噪声。并消除它们。消除噪音的方法是将页面按照HTML标签划分成块,比如header标签、footer标签等,去掉这些区域后,剩下的就是页面的主要内容了。
5、内容重复数据删除
即去除重复的网页。同一篇文章文章经常出现在不同网站/相同网站的不同网址上。为了用户体验,重复数据删除步骤是必要的。搜索引擎将识别并删除页面上的重复内容。这个过程叫做内容去重,也是影响百度网站收录的要点之一。
6、forward 索引
可以简称为索引。经过上述步骤(提取、分词、去噪、去重),搜索引擎最终获得了反映页面主要内容的唯一的、基于词的内容。
接下来通过搜索引擎的索引程序提取关键词,将分词程序划分的词转换成一组关键词。同时需要记录页面上每一个关键词的频率、出现次数、格式(如标题标签、粗体、h标签、锚文本等)、位置(如第一段页面等)。搜索引擎的索引程序将页面和关键词形成的词汇结构存储到索引数据库中。
7、倒排索引
前向索引不能直接用于排名。假设用户搜索关键词[2]。如果只有前向索引,排序程序需要扫描索引库中的所有文件,找到收录关键词[2]文件的文件,然后计算相关性。
这样的计算不能满足实时返回排名结果的要求。搜索引擎会提前对所有关键词进行分类,将正向索引库重构为倒排索引,将文件映射到关键词,就是关键词到文件的映射。在倒排索引中,关键词为主键。每个关键词 对应一系列文件。比如下图中第一行右侧显示的文件都收录关键词1文件。这样,当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,可以立即找到收录这个关键词的所有文件。
三、搜索结果排名
前一个蜘蛛抓取页面后,数据预处理和索引程序计算出倒排索引,搜索引擎随时准备处理用户搜索。用户在搜索框中输入想要查询的内容后,排名程序调用索引库的数据,计算排名后将内容显示在搜索结果页面上。
1、搜索词处理
搜索引擎收到用户输入的搜索词后,需要对搜索词做一些处理,然后才能进入排名过程。搜索词处理过程包括:中文分词、去停用词、指令处理。
完成上述步骤后,搜索引擎对剩余内容的默认处理方式是关键词之间使用“与”逻辑。
例如,用户在搜索框中输入“如何减肥”。分词和停用词之后,剩下的关键词就是“减肥”和“方法”。搜索引擎默认对用户要查询的内容进行排序,内容包括“减肥”和“方法”。
2、文件匹配
上述搜索词经过处理后,搜索引擎得到的是关键词词的集合为单位。进入下一阶段:文件匹配阶段,即找出收录所有关键词的文件。索引部分提到的倒排索引可以快速完成文件匹配。假设用户搜索“关键词1 关键词2”,排名程序只需要在倒排索引中找到“关键词1”和“关键词.2”这两个词,就可以找到所有分别收录这两个词的页面文件。
3、初始子集的选择
找到收录所有关键词的匹配文件后,无法对这些文件进行相关性计算,因为在实际情况中,经常会发现几个十、几百万甚至几千万的文件。实时对这么多文件进行相关计算需要很长时间。百度搜索引擎最多只会返回760条结果,所以只需要计算前760条结果的相关度即可满足要求。
由于所有匹配的文件已经具备了最基本的相关性(这些文件包括所有查询关键词),搜索引擎会先过滤掉一个权重较高的1000页的文件,并通过过滤权重来初始化它的一个子集,然后对该子集中的页面进行相关计算。
4、相关计算
选择带有权重的初始子集后,就是计算子集中页面的关键词相关性的步骤。计算相关性是排名过程中最重要的一步。影响相关性的主要因素包括以下几个方面:
① 关键词常用度
分词后的多个关键词对整个搜索字符串的意义有不同的贡献。使用频率越高的词对搜索词的含义的贡献越小,而使用频率越低的词对搜索词的含义的贡献越大。因此,搜索引擎不会对搜索字符串中的关键词 一视同仁,而是根据常用程度进行加权。生僻词权重系数高,常用词权重系数低。排序算法更关注生僻词。
②词频与密度
一般认为,在没有关键词积累的情况下,搜索词在页面上出现的频率更高,密度越高,页面与搜索词的相关性越高。当然,这只是一般规律,实际情况可能并非如此,因此相关性计算中还有其他因素。频率和密度只是部分因素,其重要性越来越低。
③ 关键词位置和形式
如索引部分所述,页面关键词的格式和位置记录在索引库中。 关键词出现在更重要的位置,比如title tag、粗体、H1等,说明页面与关键词的相关性更高,这部分是页面的SEO应该解决的。
④ 关键词distance
分词后出现关键词的完全匹配表明它与搜索词最相关。例如,在搜索“减肥方法”时,页面上连续完整出现的“减肥方法”四个词最相关。如果“减肥”和“方法”这两个词没有出现在连续匹配中,则它们看起来更接近,并且被搜索引擎认为更相关。
⑤ 链接分析和页面权重
除了页面本身的因素*敏*感*词*的文本等。
总结:以上优采云SEO详细分享了搜索引擎的工作原理。了解这些知识对我们做百度网站收录意义重大。例如,标题应收录用户可能搜索的词,文本应反映适当的数量。 关键词 或拆分词可以帮助确定内容与用户搜索词的相关性。