南京百度搜索引擎优化(哪些词触发哪些整合搜索，也需要在搜索词处理？)

优采云发布时间: 2021-10-23 22:15

　　搜索引擎蜘蛛抓取页面，索引程序计算出倒排索引后，搜索引擎随时准备处理用户搜索。用户在搜索框中填写查询词后，排名程序调用索引库数据，计算排名并显示给用户。排名过程与用户直接交互。

　　1、搜索引擎对搜索词的处理机制

　　搜索引擎收到用户输入的搜索词后，需要对搜索词做一些处理，才能进入排名过程。搜索词处理包括以下几个方面。

　　A：中文分词。与页面索引一样，搜索词也必须用中文进行分段，并且必须将查询字符串转换为基于单词的关键词组合。分词原理与页面分词原理相同。

　　B：转到停用词。与索引一样，搜索引擎也需要去除搜索词中的停用词，这适合最大化排名的相关性和效率。

　　C：订单处理。查询词切分后，搜索引擎默认的处理方式是在关键词之间使用“与”逻辑。也就是说，当用户搜索“减肥法”时，程序分词就是“减肥法”和方法。搜索引擎默认排序时，用户查找的页面同时收录“减肥”和“方法”，只收录“减肥”不收录“方法”，或者只收录“方法”但不收录收录“减肥”页面，这些页面被认为不符合搜索条件。当然，这只是为了说明原理而非常简化的说法。事实上，我们仍然会看到只收录关键词的一部分的搜索结果。

　　此外，用户输入的查询词还可能收录一些高级搜索指令，如加号、减号等，搜索引擎需要进行相应的识别和处理。对于高级搜索命令，后面会有详细说明。

　　D：更正拼写错误。如果用户输入明显错误的单词或拼错英文单词，搜索引擎将提示用户输入正确的用户或拼写。

　　E：集成搜索触发器。某些搜索词将触发集成搜索。例如，名人的名字经常触发图片和视频内容，当前的热闹话题很容易触发信息内容。在搜索词处理阶段还需要计算哪些词触发哪些集成搜索。

　　F：搜索框提示。当用户填写搜索框时，搜索引擎会根据热门搜索数据提供多个可能的查询词，减少用户的输入时间。

　　2、文件匹配：

　　搜索词处理后，搜索引擎得到一个基于词的关键词集合。文件匹配阶段是查找收录所有搜索关键词的所有文件。索引部分提到的是倒排索引，以便快速完成文件匹配。

　　3、初始子集的选择：

　　找到收录所有关键词的匹配文件后，无法进行相关计算，因为经常会找到几十万、几百万甚至几千万的文件。实时对这么多文件进行相关计算，耗时太长。

　　事实上，用户不需要知道所有匹配的数十万或数百万个页面。大多数用户只会查看前两页，即前 20 个结果。搜索引擎也不需要计算这么多页面的相关性，只需要计算页面最重要的部分。使用搜索引擎的人会注意到，搜索结果页面通常适合显示 100 多个。用户点击搜索结果页底部的下一页链接，只能到达第100页，即1000条搜索结果。

　　百度通常返回76页结果，360搜索通常返回64页结果。Bing 没有固定的页数，会根据不同的查询词而有所不同，但不会超过 100 页。

　　总之，多显示1000条搜索结果比较合适，所以搜索引擎只需要计算前1000条结果的相关度就可以满足要求。

　　但问题是，当没有相关性时，搜索引擎怎么知道哪1000个文件适合相关性呢？因此，post-fit相关性计算的初始页面子集的选择必须依赖于其他特征而不是相关性。适合的主要内容是页面重量。由于所有匹配的文件已经具有合适的基本相关性，搜索引擎通常使用不相关的页面特征来选择初始子集。初始子集的数量是多少？成千上万？也许更多，外人不知道。但可以肯定的是，当匹配的页面数量巨大时，搜索引擎不会对这么多页面进行实时计算，而是必须选择一个页面权重较高的子集，然后计算页面中页面的相关性。子集。

　　4、相关计算：

　　选择初始子集后，计算子集中页面的关键词相关度。计算相关性是排名过程中的重要一步。相关性是搜索引擎算法中适合 SEO 兴趣的部分。

　　影响相关性的主要因素包括以下几个方面。

　　A：关键词常用级别。分词后，多个关键词对整个搜索字符串的意义有不同的贡献。越常用的词对搜索词的意义贡献越小，越不常用的词对搜索词的意义贡献越大。例如，假设用户输入的搜索词是“we Pluto”。“我们”这个词使用频率很高，出现在很多页面上。它对搜索词“us Pluto”的识别和意义贡献不大。找出那些收录“我们”一词的页面对搜索排名相关性几乎没有影响。收录“我们”一词的页面太多了。

　　“冥王星”一词使用频率较低，但它对搜索词“我们的冥王星”的含义贡献更大。收录“冥王星”一词的页面将与搜索词“我们的冥王星”更相关。

　　常用词的极端是停用词，它对页面的含义没有影响。

　　因此，搜索引擎不会对搜索字符串中的关键词一视同仁，而是根据常用程度对其进行加权。生僻词权重系数高，常用词权重系数低。排序算法更关注生僻词。

　　我们假设“我们”和“冥王星”这两个词出现在 A 和 B 页面上。但是“我们”这个词出现在 A 页面的普通文本中，而“冥王星”这个词出现在 A 页面的标题标签中。 B页，相反，“我们”出现在标题标签中，“冥王星”一词出现在A页的标题标签中。在B页，相反，“我们”出现在标题标签中，而“ Pluto”出现在普通文本中，因此对于搜索词“us Pluto”，页面 A 将更相关。

　　B：词频和密度。一般认为，在没有关键词程序的情况下，页面上出现的搜索词越多，密度越高，页面与搜索词的相关度越高。当然，这只是一个粗略的直觉规则。实际情况要复杂得多。频率和密度只是排名因素的一小部分。

　　C：关键词位置和形式。如索引部分所述，页面关键词的攻击位置记录在索引库中。关键词出现在更重要的位置，如标题标签、粗体、H1等，说明该页面与关键词的相关度更高。这部分是页面 SEO 即将解决的问题。

　　D：关键词距离。分段的关键词出现在完全匹配中，表明它与搜索词相关。例如，搜索“减肥方法”时，页面上连续完整出现的“减肥方法”四个词就适合相关。如果“减肥”和“方法”这两个词不连续匹配，它们看起来更接近，也被搜索引擎认为稍微更相关。

　　E：链接分析和页面权重。除了页面本身的因素外，页面之间的链接和权重关系也会影响关键词的相关性，其中锚文本是合适的和重要的。在页面上将搜索词作为锚文本的导入链接越多，页面的相关性就越高。

　　链接分析还包括链接源页面本身的主题、锚文本周围的文本等。

　　5、排名过滤和调整：

　　选择匹配文件的子集并计算相关性后，就确定了总体排名。之后，搜索引擎也可能有一些过滤算法来稍微调整排名，主要过滤是施加惩罚。一些涉嫌作弊的页面，虽然按照正常的权重和相关性计算排名第一，但搜索引擎可能不会受到搜索引擎的惩罚，但在适合下一步时可能会被转移到后面。典型的例子有百度的11位算法、GOOGLE的负6、负30、负950等算法。

　　6、排名显示：

　　所有排名确定后，排名程序调用原页面的标题标签、描述标签和快照日期显示在页面上。有时搜索引擎需要动态生成页面业务需求，而不是调用页面本身的描述标签。

　　7、搜索缓存：

　　用户搜索的查询词有很大一部分是重复的。根据 2/8 规则，20% 的搜索词占总搜索次数的 80%。根据长尾词理论，常见的搜索词并不占80%，但它们通常都有一个比较大的头部。一些搜索词占所有搜索时间的很大一部分。特别是当热点新闻发生时，每天可能有数百万人搜索完全相同的词。

　　可以说每次搜索都重新处理排名是一种极大的浪费。搜索引擎会将常用的搜索词和结果存储到缓存中，用户搜索时直接从缓存中调用，无需经过文件匹配和关联计算，大大提高了排名效率，缩短了搜索响应时间。

　　8、查询和点击日志：

　　搜索引擎会记录用户的 IP 地址、搜索词、搜索时间以及点击了哪些结果页面。这些日志文件中的数据对于搜索引擎判断搜索结果质量、调整搜索算法、预测搜索趋势具有重要意义。

　　上面我们简单介绍了搜索引擎的工作过程。当然，搜索引擎的实际工作步骤和算法是非常复杂的。上面的描述很简单，但是有很多技术难点。

　　搜索引擎仍在优化算法和优化数据库格式。不同的搜索引擎的工作步骤也会有所不同。但基本上所有主流搜索引擎的基本工作原理都是一样的，在过去几年和未来几年都不会出现可以预期的实质性变化。

0

2021-10-23

南京百度搜索引擎优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

南京百度搜索引擎优化(哪些词触发哪些整合搜索，也需要在搜索词处理？)

0 个评论

发起人