seo深度解析——全面挖掘搜索引擎优化的核心秘密(网站SEO内容页关键词布局在SEO中的具体落地方法)
优采云 发布时间: 2022-02-25 17:02seo深度解析——全面挖掘搜索引擎优化的核心秘密(网站SEO内容页关键词布局在SEO中的具体落地方法)
网站SEO内容页面关键词布局是SEO的核心概念之一,SEO实践中的很多工作都是围绕着关键词展开的。本文试图将搜索技术的原理与网站的优化实践相结合,总结出关键词内容页面布局在SEO中的具体实现方法。
一、搜索引擎技术原理简介
搜索引擎的核心底层技术基础是将用户查询词用自然语言分割成有意义的短语,然后从索引数据库中找到收录全部或部分短语关键词的内容,并返回结果。
正常人的搜索思路是带上关键词,看看内容中是否收录这个关键词。假设要从10个序号为1-10的网页中查找收录“关键词布局”的网页,到这10个网页中搜索全文是否收录“关键词布局”一词”,然后返回收录“关键词 布局”的页面。单词页的序号。但是如果你从几百万或几千万的网页中搜索,速度是很慢的,所以发明了倒排索引的概念。(下图数据非实际数据,仅供参考)
如上图所示,是最简单的倒排索引模型(DocID是搜索引擎分配给被爬取网页的唯一编号)。搜索引擎爬虫每次爬取一个网页,都会把网页分成几个词组,将这些词与倒排索引表一一进行对比:如果倒排索引表的“关键词”列有这个word,在其对应的倒排列表中添加当前网页的编号DocID;如果没有,就加一行(涉及生词识别,这里不展开),给这个关键词分配一个ID,然后写输入当前页码。这样,当我们查询“关键词1”的时候,我们可以很快的知道相关的网页是(1,2,3,5)。假设比较复杂的查询词被分割成"关键词
仅此还不足以对搜索结果进行排序。在非作弊的情况下,某个关键词在网页上出现的次数越多,关键词就越能代表这个网页的特征,前提是过滤掉停用词(停用词是有很多词不能表达任何具体含义,如:“of”、“is”、“had”等)。如果我们可以在倒排索引表中加入关键词在网页中出现的频率信息(简称:词频--TF),就可以对网页进行排序。如下图:当我们的查询词被分割成“关键词1”、“关键词2”时,相关网页可以排序为(3,5,1,2)。
假设现在有两个网页1、page 2,倒排索引中的信息如下:
我们搜索“关键词How to Layout”,搜索词分为“关键词”、“How”、“Layout”,其中“关键词”、“How”、 ""Layout"出现2、2、2次,共6次;"How"和"Layout"在网页2出现7次。按照前面的逻辑,最终的搜索结果是排序为(2, 1),这显然不是一个理想的排序结果。网页2的主题显然是关于“如何布局Go”。这时候就需要引入IDF(Inverse Document Frequency Index)来解决这个问题。
如果一个网页集合中收录的某个关键词的网页较少,则关键词的网页区分能力更好,所以IDF越大,权重越高。假设上图中“关键词”、“How”、“Layout”、“Go”的IDF分别为2.5、0.3、@ >0.8、3,每个词的TF乘以IDF再求和,得到网页1、2的相关性为:7.2、4.@ >6,所以搜索“关键词如何布局”的排序结果为(1,2),比较真实。
关键词的位置信息也是一个关键点。一般认为,关键词在标题中的出现要优于相同的关键词在正文部分的出现,更能体现网页的主题特征。H标签的重要性就在于此。搜索引擎还可以判断哪里是导航、哪里是正文、哪里是侧边栏等,这些位置信息会被标记在倒排索引列表中,参与排序决策。
此外,还有一些其他常用的技术方法,如:双字索引/词组索引,“关键词如何布局”不一定分为三个短字,也可以分为“关键词 layout", "word how", "how to layout"等;相关词组合搜索,“关键词”相关词“keywords”,“how”相关词“how”等。
当然,在实践中,现代大型搜索引擎的倒排索引模型会复杂得多,排序算法还会涉及很多其他因素(一个关键点是超链接分析)。限于篇幅和作者水平,不再继续展开。
二、关键词如何布局
1、标题中必须有关键词,但不一定是完整的问句
鉴于搜索引擎会将查询词分成N个以上的词、双词、词组,并在查询时添加相关词合并查询,所以标题中的关键词不一定一个完整的问句,典型的就是“哪家公司最好是XXXX”。标题中不一定需要这个完整的单词。即使标题收录这个完整的短句,它也无法匹配其他完整的短句。一个高质量的网页往往可以匹配成百上千个长尾关键词,显然一个标题不可能收录所有这些。标题的另一个主要作用是吸引点击,点击率也是影响排名的一个因素,但“XXXX”、“好”、“公司”等核心词必须出现。
2、文中部分核心词和分词分布自然均匀
在搜索引擎开发初期,很多技术人员利用TF*IDF算法的高权重漏洞,堆积了大量的关键词,从而快速获得更好的搜索排名。后来搜索引擎修复漏洞,从算法层面打击作弊,网上流行“理想关键词密度3%~8%”的说法。首先,这个密度不是针对完整的查询词计算的,而是针对所有分词的,而在实践中你会发现关键词的密度略低于3%,而< @关键词 很高。很多8%的页面都能获得不错的排名。
如果你是一名搜索引擎工程师,你会做什么?我想我会结合全网的历史访问数据(比如百度统计、手机百度等可以获得更全面的访问数据)和关键词密度信息划定一个合理的范围和警戒范围。超出警戒范围的,将给予沉默处理。在警戒范围内,将根据网站历史数据和第一阶段小流量排名的访问数据反馈来决定是否压制或维持或给予更高的排名。
相比关键词的密度,我们更应该关注语言的流畅度(一味的插值关键词啰嗦尴尬)和内容的质量和深度。毕竟,搜索引擎中有成百上千的排名因素,你不能忽略其中一个。
3、@>文字下方的相关内容和侧边栏建议布局合理关键词
虽然搜索引擎可以通过代码和噪声比判断出这些不是文本部分,从而减少了这里一些关键词的权重,但是从百度快照缓存的角度来看,还是有一点作用的.
正文和侧边栏下方的相关内容和推荐内容,大多是从横向和纵向角度选取的。比如这篇文章的主题是“关键词布局”,然后推送“网站结构布局”、“关键词挖掘技巧”等站内优化内容,等,很有可能有很多访客感兴趣;一些内容的垂直推送,比如“教你如何构建高质量的外链”、“如何提高落地页的转化率”,也是访问者可能暂时压制的隐藏需求。在增加关键词布局的同时,还可以提升PV,减少弹窗,提升用户体验。为什么不这样做。