搜索引擎优化创始人(纪念搜索引擎算法先驱KarenSprckJones教授教授 )
优采云 发布时间: 2021-09-03 15:05搜索引擎优化创始人(纪念搜索引擎算法先驱KarenSprckJones教授教授
)
深圳全网推广介绍SEO为什么要了解搜索引擎算法创始人Karen Spärck Jones
为了纪念搜索引擎算法的先驱 Karen Spärck Jones 教授,让我们仔细看看她的最高成就:逆文档频率 (idf)。它今天仍然具有重大影响。
Idf 及其变体支持几乎所有现代和复杂的搜索引擎算法,包括 Google、Bing 和 Duck Duck Go 使用的算法。她的 tf*idf 在 1972 年的一篇论文中发表了她的算法,题为:“特定于术语的统计解释及其在检索中的应用”,研究了整个 1960 年代的基于术语的搜索问题。
Karen Spärck Jones 是“寻找的爱因斯坦”
Spärck Jones 教授发明了最重要的相关算法组件,它仍然是当今搜索引擎算法的关键部分。即使修改和调整特定集合的排名策略,她的创新也能让用户以更自然的语言进行搜索。
在她工作之前,搜索非常困难。词频 (tf) 通过衡量文本密度对文档进行单独排序:词数超过字数。因为你不能轻易地使用自然语言来获得有意义的结果,因为你会从常用词中得到诸如“the”之类的噪音。
tf*idf 背后的概念既简洁又优雅,令人叹为观止,与爱因斯坦的相对论无异。 “一个术语的特殊性可以量化为它出现的文档数量的反函数,”琼斯写道。
算法有对数
Idf 计算收录该词的文档出现频率的倒数的对数,可以看作是一个分数:所有文档都超过了搜索词出现的文档数。因此,很少出现在集合中的单词对相关性排名的重要性会增加。
当停用词出现在多个文档中时,它们会同时降级。当它们出现在所有采集的文档中时,它们有时会降级为零。如果单词“the”出现在 100 个文档集中的所有 100 个中,则单词“the”的得分正好为零。
log(100/100) 等于零。
数学的变体可以通过在文档总数上加 1 来避免这种单词分数为零的情况。结果仍然是一个无穷小的分数。
log(101/100)等于0.004。
一个罕见的词,比如只出现在 100 个文档中的 1 个,得分会更高。
log(100/1) 等于 2.
停止或不停止的话
例如,为了避免零分,我们会调整想要的结果。这是您用来测试和编辑文档集合搜索算法的工作类型。随着您的采集增长到现代网络的规模,您将继续调整以提高相关性并弥补垃圾邮件的突然出现。
Pagerank 有对数
猜测其他算法在对数范围内对文档进行评分? Google 的 PageRank。
是的,Google 的 PageRank 是 Spärck Jones 教授的 tf*idf 算法的直接 优采云。这并不是说 Google 没有改变数学以适应其庞大的网络文档集合。它必须有一个程度,使它变得复杂和精心设计。
Gary Illyes 的意思:RankBrain 是一个机器学习排名组件,它使用历史搜索数据来预测用户最有可能点击以前不可见的查询。它经常解决谷歌曾经遇到的传统算法问题。每当传统算法这样的时候,它就为我们节省了无数次,例如“哦,它在查询字符串中看起来不像!让我们忽略它的地狱!”这取决于结果页面本身发生了什么事情的旧数据,而不是登陆页面。
对于网站administrators,忽略他所谓的“垃圾邮件”所谓的停留时间、域名权限、点击率(搜索结果)等等。这是一个可靠的建议,因为任何有进取心的搜索引擎优化试图通过有限的研究证明几个重要的不可翻译因素不可避免地会被遗漏。世界那么大,一群志同道合的人会聚在一起,站出来胡说八道。这是很自然的。相反,他说:“搜索比人们想象的要简单得多。”
tf*idf 现代搜索中的 Spärck Jones 教授
Google 变得越来越复杂。这并不意味着您应该进行 SEO 猜测。 网站专注于使搜索引擎友好,拥有有价值且独特的内容。让我们 tf*idf 成为您的向导。搜索营销人员应该较少注意确保某些热门关键字出现在他们的页面上,而应该更多地考虑编写独特的内容。在找出您自然会使用的词时,Google 会变得更聪明。
集合中知识领域的分类、集合中的文档集合、网站的分类、链接分析、网站用户、搜索用户——这些都源于Karen Spärck Jones的发明。其中,tf*idf,有趣的是,在实验中进行了修改,适用于这些领域。
她热衷于保持最新状态,2004年可以看到关于tf*idf的信:“Alta Vista从一开始的应用tf*idf,似乎大多数引擎,在某处,都使用类作为一个整体其支持策略的一部分。因此,即使信息技术飞速发展,一个简单、明显且有用的想法要到达现实世界也需要大约 25 年的时间。”