解密seo:搜索引擎优化与网站成功战略(TF-IDF算法不是对搜索引擎的操纵,它是如何使用的)

优采云 发布时间: 2022-02-24 17:14

  解密seo:搜索引擎优化与网站成功战略(TF-IDF算法不是对搜索引擎的操纵,它是如何使用的)

  在过去一年左右的时间里,您可能已经看到了 TF-IDF 这个词,很多 SEO 时尚来来去去,一些最有趣的 SEO 最终会受到处罚,对吧?

  但是 TF-IDF 有点不同。

  TF-IDF 算法不是对搜索引擎的操纵,它是一种分析内容主题的方法,它建立在与搜索引擎本身相同的原理之上。因此,对于需要一种真正客观的方法来衡量和改进其内容的 SEO 人员来说,它具有惊人的潜力。

  我最近刚刚在其能力范围内完全接受了案例研究,结果非常有趣。我想确保在了解我从个人实验中学到的东西之前,我将了解 TF-IDF 以及它是如何使用的。

  一、什么是 TF-IDF?

  从字面上看,它的意思是词频乘以逆文档频率。

  

  TF-IDF 是一个结合这两个度量的方程,衡量一个术语在页面上使用的频率 (TF),以及该术语在集合中的所有页面中出现的频率 (IDF) - 分配分数或权重,该术语对页面的重要性。

  该方程式在学术界有着悠久的历史,语言学和信息架构等领域的研究人员将其用作在短时间内分析大型文档存储库的一种方式。信息检索程序(包括所有搜索引擎)也使用它来有效地对数百万个结果的相关性进行排名和判断。你想做什么和搜索引擎想用相同的信息做什么之间有一个重要的区别。

  搜索引擎想要考虑由网络上所有结果组成的集合,并且您想要将页面或 网站 与仅仅表现不佳的 网站 进行比较......即前 10 名。深入了解TF 和 IDF……TF-IDF 的方程,你可能需要做一些数学运算才能得到所有的测量值,TF 和 IDF。但我保证不会那么难。根据应用的不同,TF-IDF 的方程可能比我下面使用的示例复杂得多。

  简化与否,如果您尝试优化 网站,您通常不希望被人手抓住。这些方程式将帮助您了解 TF-IDF 的作用,但我最后讨论的工具才是真正打开潜力的工具。通过对术语出现在页面上的次数进行原创计数来求解第一个术语频率。然后,将该数字代入以下等式:

  词频=(原创计数)/(文档中的总字数)

  TF 分数可以告诉你一个词是否被频繁使用,但它只有在衡量其他指标时才真正有用。逆文档频率的计算方法是将术语出现的文档数除以所选集合中的文档总数,如下所示:

  逆文档频率(术语)= log(文档数//(收录关键字的文档)

  有了 IDF 分数,您现在可以衡量一个短语对页面的重要性,而不仅仅是使用了多少次,这很重要,因为它让您了解构建搜索引擎算法的人的心态。

  二、为什么TF-IDF对网站SEO排名优化很重要?

  能够填写此等式的最终目标是能够为您的内容提供可操作的相关性分数。使用 TF-IDF 工具,您可以将您的分数与任何学期的最佳成绩进行比较。

  通过根据这个指标对页面进行评分,您几乎可以看到 Google、百度对 网站 对同一主题的评价如何。

  尚不清楚谷歌或百度等搜索引擎是否在其算法中使用 TF-IDF,如果是,它是否是一种变异形式?也就是说,我已经知道有一些私人相关性研究,其数据表明可能。TF-IDF 分析允许您根据算法已经奖励的内容优化内容中的术语平衡。

  三、使用 TF-IDF 加强关键词研究

  TF-IDF 比关键字密度更进一步,让您深入了解 网站 上的整个词族。

  例如,假设您已针对“南宁 SEO 培训”进行了关键字研究以优化您的页面。大部分关键词研究工具都会吐出“南宁SEO培训”、“南宁SEO培训”等关键词。

  当您使用我稍后介绍的 TF-IDF 工具时,您还可以找到在使用常规关键字研究之前您永远找不到的顶级页面使用的相关非 SEO 术语。诸如“合法”、“有经验”、“权利”和“实践”之类的术语。

  

  这些术语不会出现在 关键词 研究工具中,因为 文章 本身不会为它们排名,但它们需要讲述搜索意图的故事。

  四、如何使用正确的TF-IDF算法进行优化?

  假设您正在检查的文档(例如客户的登录页面)收录 12 次“PPC”一词,长度约为 100 个字。如果你想开始分析这个,首先把它代入上一个频率方程。

  TF(PPC)=(12/100)=0.12

  现在,假设您想查看此使用情况与网络其余部分的使用情况相比如何。从 10,000,000 的样本量来看,这些页面中至少有一些是关于 Web 服务的,并且将收录对 PPC 的引用。比方说,300,000。

  我们可以使用这些数字来完成逆文档频率方程。

  IDF(PPC) = log(10,000,000 / 300,00 0)= 1.52

  现在您使用 TF-IDF 方程根据该术语对页面进行评分

  TF-IDF (PPC) = 0.12 * 1.52 = 0.182

  事实是,这不是满足约束的问题。您想要平衡目标术语的分数与第 1 页上表现最佳的 URL。

  给定学期的高分不一定是好事(毕竟,100 个单词中有 12 个被大量使用)。像“is”、“this”或“and”这样的常用词呢?由于方程的结构,这种噪声并不是真正的问题。

  这些词在整个文档集中经常使用,因此这些词的重要性大大降低。让我们回到这个等式。为了真正说明差异,我们会说页面上的“是”与“PPC”一样多。

  TF(是) = (12/100)= 0.12

  但是看看当我们完成 IDF 方程时会发生什么,知道绝大多数结果将收录“是”这个词,比如 8,000,000。

  IDF(是) = log(10,000,000 / 8,000,00 0)= 0.09

  这将产生最终的 TF-IDF 值:

  TF-IDF(是)= 0.12 * 0.09 = 0.010

  TF-IDF 值与该短语在文档中使用的次数成比例增加,但在这种情况下,它会被集合中其余部分的单词频率所抵消,其值得分类似于上一个示例。

  换句话说,这个词越常见,IDF 就越小。短语呢?搜索引擎倾向于对单个术语的多词短语给予不成比例的重视,特别是在考虑语言的自然质量时。当然,您希望使用这些注意事项来执行 TF-IDF 评估。

  幸运的是,您不需要额外的努力,大多数 TF-IDF 工具都能够将关键字计算为 2 词和 3 词版本。

  当 TF-IDF 专门用于学术和研究目的时,术语被计为称为 bigrams 的 bigrams 或称为 trigrams 的 3 个单词。搜索引擎做同样的事情,因此以同样的方式分析您的内容很重要。

  使用前面的 PPC 页面示例,让我们看看可能出现在该页面上的短语,以及这些短语可能对主题提出什么建议。

  “PPC 活动需要大量广告”

  这个短语中的每组两个单词都可以算作一组二元组。

  PPC

  PPC 广告系列

  活动需要

  等等

  添加第三个单词时,在考虑较长的短语时添加了多少重要的上下文变得更加清楚。

  PPC 广告系列

  PPC 活动要求

  等等

  并非所有 TF-IDF 工具都可以处理两个以上的组合,TF-IDF 几乎适用于任何 SEO 的内容开发过程。

  这是一种在开始构建内容之前了解更多信息的方法,然后知道在哪里以及如何再次完善它。

  选择工具后,只需完成每个关键字选择的过程。如果您还没有使用 TF-IDF 工具,您可以在下一节中找到我使用它们执行的测试的数据。

  1)写内容

  按照您知道的最高标准编写内容,或参考您为客户优化的内容。创建一个收录一个、两个或三个单词的主题列表,并将其添加到您选择的 TF-IDF 工具中。

  您的目标是定位关键字和针对它们的顶级域的 URL,以揭示您缺少哪些主题,以及您没有深入讨论哪些主题。

  2)插入 TF-IDF 工具

  每个工具的工作方式略有不同,它们也跟踪不同的信息,但最有用的信息是帮助您了解竞争对手如何通过使用关键字获得成功。

  利用您选择的工具的任何功能来帮助您发现与前 10-20 个 URL 相关的术语,然后生成一个分数,以反映它使用的每个其他术语的权重。

  3)重新优化的内容

  现在您已完全了解每个竞争对手涵盖的主题以及这些词的使用频率,您可以使用这些信息来优化您自己的内容。

  对内容进行第二遍,并寻找自然的方式来介绍您尚未涵盖的主题。请记住,您的动机不是不自然,而是要恢复他们目前缺少的自然联系。

  4)发帖

  使用您最近从搜索中采集的见解发布更新的内容。从这里,您可以继续分析它,以及排名的任何变化。

  5)显示TF-IDF前后图

  TF-IDF 的一个好处是它允许您在非常小的水平上跟踪性能。在每次调整内容之前和之后,您都可以生成页面上主题平衡如何变化的图表。这些对于有兴趣查看您对其内容所做更改的特定指标的客户很有用。

  五、TF-IDF 工具

  博主只发现了一些针对谷歌等英文搜索引擎优化的TF-IDF工具,没有找到中文的TF-IDF工具。

  1.文本工具

  2.ftf.agency

  综上所述

  希望这篇文章文章能帮助我们对TF-IDF分析有一个清晰的认识。

  您不仅了解了它背后的数学原理,还了解了它如何应用于 SEO 并在您的 文章 中创建相关性。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线