南京百度搜索引擎优化(百度搜索引擎SEO优化排名,搜索引擎处理机制处理方法介绍)
优采云 发布时间: 2022-03-09 04:08南京百度搜索引擎优化(百度搜索引擎SEO优化排名,搜索引擎处理机制处理方法介绍)
百度搜索引擎SEO优化排名流程
搜索引擎蜘蛛爬取页面,索引程序计算倒排索引后,搜索引擎随时准备处理用户搜索。用户在搜索框中填写查询词后,排名程序调用索引数据库数据,计算排名并展示给用户,排名过程直接与用户交互。
1、搜索引擎对搜索词的处理机制
搜索引擎接收到用户输入的搜索词后,需要对搜索词进行一些处理,才能进入排名流程。搜索词处理包括以下几个方面。
百度推广*敏*感*词*:、百度推广、网站建设、微信开发、APP开发、企业宣传片、400电话、
A:中文分词。与页面索引一样,搜索词也必须用中文进行分段,将查询字符串转换为基于单词的 关键词 组合。分词的原理与分页的原理相同。
B:去停止的话。与索引一样,搜索引擎也需要从搜索词中删除停用词,以最大限度地提高排名相关性和效率。
C:命令处理。查询词切分后,搜索引擎默认的处理方式是在关键词之间使用“与”逻辑。也就是说,当用户搜索“减肥方法”时,程序分为“减肥”和方法两个词。默认情况下,当搜索引擎排序时,用户正在寻找一个同时收录“减肥”和“方法”的页面,并且只收录“减肥”不收录“如何”或仅收录“减肥”的页面“如何”而不是“减肥”被认为不符合搜索条件。当然,这是为了说明原理而极其简化的陈述,实际上我们仍然会看到仅收录 关键词 一部分的搜索结果。
此外,用户输入的查询词还可能收录一些高级搜索指令,如加号、减号等,搜索引擎需要进行识别和相应的处理。稍后将详细描述高级搜索命令。
D:拼写错误纠正。如果用户输入了明显错误的单词或拼写错误的英文单词,搜索引擎将提示用户输入正确的用户或拼写。
E:综合搜索触发器。某些搜索词会触发综合搜索。比如名人名字经常触发图片和视频内容,时下热点话题很容易触发信息内容。哪些词触发哪些综合搜索也需要在搜索词处理阶段进行计算。
F:搜索框提示。当用户填写搜索框时,搜索引擎根据热门搜索数据提供多组可能的查询词,减少用户的输入时间。
2、文件匹配:
搜索词处理完毕后,搜索引擎会根据该词得到一组关键词。文件匹配阶段就是查找收录所有搜索关键词的所有文件。索引部分提到的是倒排索引可以快速完成文件匹配。
3、初始子集选择:
找到收录所有关键词的匹配文件后,无法进行相关性计算,因为找到的文件往往是几十万、几百万,甚至几千万。实时对这么多文件进行相关性计算仍然需要很长时间。
事实上,用户不需要知道所有匹配的数十万或数百万个页面,大多数用户只会查看前两个页面,即前 20 个结果。搜索引擎不需要计算这么多页面的相关性,只需要计算页面中最重要的部分。使用很多搜索引擎的人都会注意到,搜索结果页面通常最多显示100个。用户点击搜索结果页面底部的下一页链接,最多只能到达第100个页面,也就是1000个搜索结果。
百度一般返回 76 页结果,360 搜索一般返回 64 页结果。Bing没有固定的页数,会根据不同的查询词而有所不同,但不会超过100页。
总之,最多显示1000条搜索结果,所以搜索引擎只需要计算前1000条结果的相关度,就足够了。
但问题是,在没有相关性的情况下,搜索引擎如何知道哪 1000 个文档最相关?所以用于最终相关性计算的初始页面子集的选择必须依赖于相关性以外的其他特征,其中最主要的是页面权重。由于所有匹配的文档已经具有最基本的相关性,因此搜索引擎通常会选择具有非相关页面特征的初始子集。初始子集的数量是多少?成千上万?也许更多,外人不知道。但是可以肯定的是,当匹配页面数量巨大时,搜索引擎不会对这么多页面进行实时计算,而是必须选择权重较高的页面子集,然后计算子集中的页面。
4、相关计算:
在选择了初始子集后,将为子集中的页面计算 关键词 相关性。计算相关性是排名过程中最重要的一步。相关性是搜索引擎算法中最让 SEO 感兴趣的部分。
影响相关性的主要因素包括以下几个方面。
答:关键词频率。分词后,多个关键词对整个搜索字符串有不同的含义。较常用的词对搜索词的意义贡献较小,而较少使用的词对搜索词的意义贡献较大。例如,假设用户输入的搜索词是“we Pluto”。“我们”这个词非常常用,出现在很多页面上,它对搜索词“我们冥王星”的识别和相关性贡献很小。查找收录“我们”这个词的页面对搜索排名相关性影响不大,收录“我们”这个词的页面太多。
虽然“冥王星”这个词不太常用,但它对搜索词“我们冥王星”的意义贡献更大。那些收录“冥王星”一词的页面将与搜索词“我们冥王星”更相关。
常用词的极端是停用词,它对页面的意义没有影响。
因此,搜索引擎不会对搜索词串中的关键词一视同仁,而是根据常用程度对其进行加权。不常用词权重系数高,常用词权重系数低,排序算法更关注不常用词。
假设“我们”和“冥王星”这两个词出现在 A 和 B 页面上。但是“我们”这个词出现在 A 页面的常规文本中,而“冥王星”这个词出现在 A 页面的标题标签中。 B页是相反的,“我们”出现在标题标签中,“冥王星”一词出现在A页的标题标签中。B页相反,“我们”在标题标签中,“冥王星”在平原文本,那么页面 A 将与搜索词“我们冥王星”更相关。
B:词频和密度。一般认为,在没有关键词程序的情况下,搜索词在页面中出现的次数越多,密度越高,页面与搜索词的相关度也越高。当然,这只是一个粗略的直觉规则。实际情况要复杂得多,出现的频率和密度只是排名因素的一小部分。
C:关键词位置和形式。如索引部分所述,页面 关键词 出现的位置记录在索引库中。关键词 出现在比较重要的位置,例如标题标签、粗体、H1 等,表明页面与 关键词 的相关性更高。这部分是页面上的 SEO 地址。
D:关键词距离。分段的 关键词 显示为完全匹配,表明它与搜索词最相关。例如,在搜索“减肥法”时,页面上连续完整出现的“减肥法”字样是最相关的。如果“减肥”和“方法”这两个词没有连续出现,它们看起来更接近,搜索引擎认为它们更相关。
E:链接分析和页面权重。除了页面本身的因素外,页面之间的链接和权重关系也会影响关键词的相关性,其中最重要的就是锚文本。页面上带有搜索词作为锚文本的传入链接越多,页面的相关性就越强。
链接分析还包括链接源页面本身的主题、锚文本周围的文字等。
5、排名过滤和调整:
在选择匹配文档的子集并计算相关性之后,确定总体排名。之后,搜索引擎可能会有一些过滤算法对排名进行微调,其中最重要的就是进行处罚。一些疑似作弊的页面,虽然按照正常的权重和相关度计算排在最前面,但是搜索引擎的惩罚是不计算的,但是这些页面可能会在最后一步被转移到后面。典型的例子有百度的11-bit、GOOGLE的负6、负30、负950等算法。
6、排名显示:
确定所有排名后,排名程序调用原创页面的标题标签、描述标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面描述,而不是调用页面本身的描述标签。
7、搜索缓存:
用户搜索的大部分查询词都是重复的。根据 2/8 规则,20% 的搜索词占总搜索量的 80%。根据长尾词理论,最常见的搜索词不占80%之多,但通常头部比较粗,少数搜索词占所有搜索的很大一部分。尤其是当有热点新闻时,每天可能有数百万人搜索完全相同的词。
重新处理每次搜索的排名将是一种巨大的浪费。搜索引擎会将最常用的搜索词和结果存储在缓存中,用户在搜索时直接从缓存中调用,无需经过文件匹配和相关性计算,大大提高了排名效率,缩短了搜索时间响应时间。
8、查询并点击日志:
搜索引擎记录搜索用户的IP地址、搜索查询、搜索时间、点击了哪些结果页面。这些日志文件中的数据对于搜索引擎判断搜索结果质量、调整搜索算法、预测搜索趋势具有重要意义。
上面我们简单介绍了搜索引擎的工作流程。当然,实际搜索引擎的工作步骤和算法是非常复杂的。上面的说明很简单,但是涉及到很多技术难点。
搜索引擎不断优化算法和优化数据库格式。不同搜索引擎的工作步骤也会有所不同。但基本上各大搜索引擎的基本工作原理都是这样的,过去几年不会有实质性的变化,未来几年是可以预期的。
百度推广*敏*感*词*:、百度推广、网站建设、微信开发、APP开发、企业宣传片、400电话、