seo优化搜索引擎工作原理(哪些词触发哪些整合搜索，搜索引擎处理需要注意什么？)

优采云发布时间: 2022-01-14 03:01

　　搜索引擎蜘蛛爬取页面，索引程序计算倒排索引后，搜索引擎随时准备处理用户搜索。用户在搜索框中输入查询词后，排名程序调用索引数据库数据，计算排名并展示给用户。排名过程直接与用户交互。

　　1、搜索词处理

　　搜索引擎接收到用户输入的搜索词后，需要对搜索词进行一些处理，才能进入排名流程。搜索词处理包括以下几个方面：

　　(1)，中文分词。和页面索引一样，搜索词也必须是中文分词，将查询字符串转换成基于分词的关键词组合。分词的原理是与页面分词相同。

　　(2)，去除停用词。与索引处理类似，搜索引擎也需要从搜索词中去除停用词，以最大限度地提高排名相关性和效率。

　　(3)，指令处理。查询词切分后，搜索引擎默认的处理方式是在关键词之间使用“与”逻辑。比如用户搜索“减肥法” "关键词，程序分割为“减肥”（代码：A）和“方法”（代码：B）两个词。默认情况下，搜索引擎排序时，用户同时查找“体重” loss”和“method”。A没有B或B没有A的页面将被视为不满足搜索条件。这只是为了简化原理的解释。实际上你仍然可以看到搜索结果只有收录关键词的一部分。此外，用户输入的查询词还可能收录一些高级搜索指令（后面文章会提到），如加号、减号等，搜索引擎需要做相应的识别和相应的处理。

　　(4), 拼写错误的更正。如果用户输入了明显错误的单词或英文单词拼写错误，搜索引擎会提示用户使用正确的单词和拼写。

　　拼写错误更正

　　(5), 综合搜索触发。某些搜索词会触发综合搜索。比如名人名字经常会触发图片和视频内容。当前的热门话题很容易触发信息内容。哪些词触发了哪个综合搜索，也是它需要在搜索词处理阶段计算。

　　(6)，搜索框提示。当用户填写搜索框时，搜索引擎根据热门搜索数据提供多组可能的查询词，减少用户输入时间。

　　2、文件匹配

　　搜索词处理完毕后，搜索引擎会根据该词得到一组关键词。文件匹配阶段就是查找收录所有搜索关键词的所有文件。索引部分中提到的倒排索引可以快速完成文件匹配。如下所示：

　　倒排索引快速匹配文件

　　假设用户搜索“关键词2”和“关键词7”，排名程序只需找到“关键词2”和“关键词7”这两个倒排索引词，你可以找到分别收录这两个词的所有页面。一个简单的交集可以找到同时收录“关键词2”和“关键词7”的所有页面：文件 1 和文件 6。

　　3、初始子集选择

　　找到收录所有关键词的匹配文件后，无法进行相关性计算，因为找到的文件往往有几十万、几百万，甚至几千万。实时对这么多文件进行相关性计算仍然需要很长时间。事实上，用户不会看几十万页。大多数用户只看前两页，即前 20 个结果。搜索引擎只需要显示页面中最重要的部分。搜索结果页面通常最多显示 100 页。谷歌，雅虎！，搜狗显示100页，百度显示76页，一般是64页，Bing好像没有固定值，会根据查询词的不同而变化，但不会超过100页。

　　但是问题来了，当相关性尚未计算出来时，搜索引擎如何知道哪 100 页的结果最相关？所以最终相关性计算的初始页面子集选择必须依赖于相关性以外的其他特征，其中最重要的是页面权重。由于所有匹配的文档已经具有最基本的相关性（这些文档收录所有查询关键词），搜索引擎通常使用相关的页面特征来选择初始子集。初始子集的数量是多少？多少？或许更多，外人不知道。但是可以肯定的是，当匹配页面数量巨大时，搜索引擎不会对这么多页面进行实时计算，而是必须选择权重更高的页面子集，

　　4、相关性计算

　　GIF来源网络

　　计算相关性是排名过程中最重要的一步，而相关性计算是搜索引擎算法中 SEO 最感兴趣的部分。

　　影响相关性的主要因素包括：

　　(1), 关键词共同度。分词后，多个关键词对整个搜索字符串的意义贡献程度不同。越常用的词对搜索词的程度越小，反之，不常用的词对搜索词的意义贡献越大。

　　示例：假设用户输入关键词是“我们的冥王星”。“我们”这个词非常常用，出现在很多页面上，它对搜索词“我们冥王星”的识别和相关性贡献很小。找到那些收录“我们”这个词的页面对搜索排名相关性几乎没有影响，收录“我们”这个词的页面太多了。相反，搜索词“冥王星”我们冥王星“会更相关。

　　常用词的极端是停用词，它对页面的意义没有影响。因此，搜索引擎不会对搜索词串中的关键词一视同仁，而是根据常用程度对其进行加权。不常用词权重系数高，常用词权重系数低，排序算法更关注不常用词。

　　假设“我们”和“冥王星”这两个词分别出现在 A 和 B 页上。但是“我们”这个词出现在 A 页面的常规文本中，而“Pluto”这个词出现在 A 页面的标题标签中。页面 B 则相反，标题标签中出现“我们”，而标题标签中出现“冥王星”。常规文本。那么页面 A 将与搜索词“我们冥王星”更相关。

　　（2)，词频和密度。一般认为，在没有关键词积累的情况下，搜索词在页面中出现的次数越多，密度越高，页面相关度越高当然，这只是一个粗略的直观规则，实际情况要复杂得多，出现的频率和密度只是排名因素的一小部分。

　　（3), 关键词Locations and Forms。正如索引部分提到的，页面关键词出现的表单和位置记录在索引库中。关键词出现在更多重要的位置，如标题标签、粗体、H1等，表示页面与关键词的相关性更高，这部分是页面SEO需要解决的。

　　(4), 关键词距离。分割后的关键词出现在完全匹配的情况下，表示它与搜索词最相关。例如：搜索“减肥方法”时，它在页面上连续完整地出现”“减肥方法”四个词最相关。如果“减肥”和“方法”这两个词不连续出现，它们看起来更接近，搜索引擎认为它们稍微相关一些。

　　(5)，链接分析和页面权重。除了页面本身的因素外，页面之间的链接和权重关系也会影响关键词的相关性，其中最重要的就是锚文本. 页面越多以搜索词为锚文本的传入链接表明该页面的相关性越强。

　　链接分析还包括链接源页面本身的主题、锚文本周围的文字等。

　　5、排名过滤和调整

　　在选择匹配文件的子集并计算相关性后，确定了总体排名。之后，搜索引擎可能会有一些过滤算法对排名进行微调，其中最重要的就是进行处罚。虽然有些涉嫌作弊的页面按照正常的权重和相关性计算排在最前面，但搜索引擎的惩罚算法可能会在最后一步将这些页面移到后面。典型的例子有百度的11位、谷歌的负6、负30、负950等算法。

　　6、排名显示

　　确定所有排名后，排名程序调用原创页面的标题标签、描述标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面片段，而不是调用页面本身的描述标签。

　　7、搜索缓存

　　用户搜索的大部分查询词都是重复的。根据 2/8 规则，20% 的搜索词占总搜索量的 80%。根据长尾理论，最常见的搜索词占不到80%，但通常头部较粗，这种情况很少见。一些搜索词占所有搜索的很大比例。尤其是当有热点新闻时，每天可能有数百万人搜索完全相同的词。

　　重新处理每次搜索的排名将是一种巨大的浪费。搜索引擎会将最常用的搜索词和结果存储在缓存中，用户在搜索时直接从缓存中调用，无需经过文件匹配和相关性计算，大大提高了排名效率，缩短了搜索时间响应时间。

　　8、查询和日志

　　搜索引擎记录搜索用户的IP地质、搜索的查询词、搜索时间、点击了哪些结果页面。这些日志文件中的数据对于搜索引擎判断搜索结果的质量、调整搜索算法、预测搜索趋势具有重要意义。

　　关于搜索引擎如何工作的后记

　　在上述文章文章中，我们简要介绍了搜索引擎的工作流程。当然，实际搜索引擎的工作步骤和算法是非常复杂的。这三个文本的描述很简单，但是技术难点很多。搜索引擎也在不断优化算法和优化数据库格式。不同搜索引擎的工作步骤也会有所不同，但基本上各大搜索引擎的基本工作原理都是一样的，过去几年不会有实质性的变化，未来几年是可以预期的。

　　声明：本文为原创，作者为郑州seo，转载请保留此声明及所附文章链接：

0

2022-01-14

seo优化搜索引擎工作原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

seo优化搜索引擎工作原理(哪些词触发哪些整合搜索，搜索引擎处理需要注意什么？)

0 个评论

发起人