搜索引擎优化原理(TF-IDF算法的计算步骤及计算方法及公式本文)
优采云 发布时间: 2021-10-17 15:28搜索引擎优化原理(TF-IDF算法的计算步骤及计算方法及公式本文)
作者:沉阳seo发表于:2019-12-11 9:16:10·阅读(6464)·评论()
最近出现了一种新的TF-IDF算法,TF-IDF算法是搜索引擎的核心部分。TF-IDF算法是为了增加相关词的覆盖率和优质版面的密度关键词,从而在百度、谷歌等搜索引擎的内容质量排名中获得加分,获得超高分数。
TF-IDF
最近,麻米网上有几个TF-IDF算法原理和公式。本文将为大家深入分析。如果您有兴趣,请深入阅读。
1.什么是TF-IDF
我们先来看看百度百科对TF-IDF的解释:
“TF-IDF是一种统计方法,用于评估一个词对一个文档集或一个语料库中的一个文档的重要性。一个词的重要性与它在文档中出现的次数成正比,但同时时间它将与它在语料库中出现的频率成反比。搜索引擎经常使用各种形式的 TF-IDF 加权作为文档和用户查询之间相关程度的度量或评级。” 文章链接:
看完定义,大家都和我一样傻。为了让大家更容易理解,笔者将举一个简单易懂的栗子。
如果我们在百度上搜索“水果”这个词,百度爬虫爬取的以下5个内容网站,你认为哪个内容排在第一位?
相信很多人心里都有答案。根据你的直觉,内容 2 和内容 5 应该排名靠前,内容 5 可能排在第一位,内容 2 排在第二位。
其实这个结论根据TF-IDF算法也是可以得出的,那么TF-IDF是怎么做的,还请跟贴。
二、TF-IDF算法的计算步骤 Step 1:计算逆文档频率
我们首先统计每个单词中收录的文章的个数。例如“Fruit”被4篇文章文章引用(内容1、2、4、5),4是“Fruit”的逆文档频率。
分词后,每个词的逆文档频率如下:
水果=4、苹果=3、好吃=2、菠萝=2、西瓜=2、梨=2,桃=1、猕猴桃=< @1、蔬菜=1,茄子=1
PS:IDF=log(语料库中的文件总数/收录单词t的文件数)。为了便于理解,这里进行了简化。
根据我们的直觉,如果一篇文章文章在逆向文档前面收录出现频率最高的词,说明这篇文章文章的内容更符合用户的意图,更受搜索引擎欢迎. 回到这个例子,“fruit, apple”是这个例子中最重要的两个词。如果内容收录“水果,苹果”,则该内容的质量会更好。
因此,收录“水果,苹果”的内容是更可靠的内容:
第二步:计算词频(TF)
我们剪下内容1、内容3,剩下的内容2、内容4、内容如何排序5.大家想一想,一个词在内容,也意味着这个词对这篇文章更重要文章。回到这个例子,“fruit”是我们的核心词,所以因为“fruit”在content 5中出现了两次,content 2、 content 4的频率为1,那么content 5胜出。最终排序结果如下
以上是hacked和hacked TF-IDF算法的简化解释版本。真正的 TFIDF 算法比这要正式和复杂得多。这里只是为了让大家切入正题,达到码迷的目的。
TF-IDF对SEO非常重要!
TF-IDF对SEO来说非常非常非常重要,重要的事情说三遍!
我们可以看到TFIDF算法不仅可以衡量关键词对页面的重要性,还可以衡量文章的广度和相关性。对于百度和360、google来说,TFIDF算法的出现挡住了大量利用关键词的密度来获取排名的SEO新手,同时也提升了质量的搜索。真的是一石二鸟。
百度百科表示:“除了TF-IDF,互联网上的搜索引擎还采用了一种基于链接分析的评级方法来确定文件在搜索结果中出现的顺序。”。这是什么意思?您的排名可以由以下公式确定。文章分数=TFIDF分数+链接分数,百度搜索引擎用的是TFIDF!!
于是有人上前询问。他们只是在百度百科里说百度没有使用TFIDF算法。
好吧~我们继续往下看。
首先,百度使用的是TFIDF算法
百度的专利使用了TFIDF的真锤,请参考百度的专利文献“CN102737018A-基于非线性统一权重发布的搜索结果排序方法和装置”。搜索算法来去匆匆,百度算法更新迭代也很快,但TFIDF算法有点不同,它是目前最核心的搜索算法之一。
其次,GOOGLE也使用了TFIDF算法
谷歌识别搜索中使用的TFIDF算法:原文链接:
最后,TFIDF得分占比非常高
如果搜索引擎决定使用TF-IDF作为评估网页内容的质量因素,这个比例有多大?码迷们都知道,目前搜索引擎一般使用如下算法来计算网站页面得分:得分(页面得分)= TFIDF得分* x +链接得分* y +用户体验得分* z(其中x + y + z = 100%;);
TF-IDF
关于2G谷歌搜索数据,码迷做过人工智能训练,预测TFIDF分数会占到百度权重的40%左右,谷歌已经达到了50%。
快速队列中朋友透露的链接分数约占百度权重的20%,谷歌目前还不清楚。
百度的用户体验评分(可以通过刷快排来提升)比例在40%左右,而谷歌还没有找到相关的快排技术文档。
所以,在中国做SEO:
排名分数=40%的内容质量(TFIDF)+40%的用户体验分(快速排名)+20%的链接分(域名+外链),TFIDF的重要性不言而喻。
内容优化助手摩天大楼
摩天大楼在初始版本中使用了基本的TF-IDF公式,但是在实验过程中,我做了几个网站却没能做出主页,郁闷了半天。
后来,机缘巧合下,专家指出使用了稍微复杂一点的BM25算法。BM25算法实际上是TFIDF相关性的升级版,主要引入了文档长度和关键词权重等可调参数。
其中,BM25算法公式中的k参数是从样本库中学习计算得到的。机器学习K个参数后,样本库排名得分与谷歌搜索排名基本一致。不过由于广告太多,干扰项太多,百度一直无法验证,但通过实际案例验证,K参数的取值也是分不开的。
使用摩天大楼提高 TF-IDF 分数
Step 1 写内容
定位目标核心搜索词,然后选择大约3个长尾关键词,设置你的网站标题。写好标题,然后根据标题仔细写好你的SEO内容。白帽SEO同学可以做原创,黑帽同学可以做采集拼起来(这里省略几万字)
第 2 步提高内容评级
妈咪独家开发的摩天大楼内容助手,将从5个维度评估您的标题内容。摩天大楼还将跟踪不同的相关词,并帮助您衡量您在众多竞争对手中的排名分数。这些非常干燥。非常枯燥的SEO技巧对于帮助了解竞争对手的内容有很大帮助。
摩天大楼SEO内容质量评分报告
Step 3 重新优化内容
摩天大楼内容助手会清楚地告诉你哪些词应该减少,哪些词应该添加关键词。只需遵循摩天大楼内容助手的建议即可。整个过程会有点枯燥,但是代码爱好者已经实践了太多的案例,非常有效。
第 4 步通过摩天大楼内容助手再次评分
这是一个反复优化和验证的过程。一般情况下,你把TOP50周围的相关词都覆盖了,你的网站内容基本可以拿到全网TOP2质量的排名。然后根据词频建议调整TOP10相关词的词频,基本全网第一。
摩天大楼助手搜索引擎优化工具
第一次开发过程验证
开发者代码爱好者实际上已经测试了 TFIDF 算法一年多。一开始,码迷们花了大约三个月的时间研究百度、好搜、神马的相关搜索专利。其中大部分是百度。他们还通过百度专利和百度朋友了解到,百度确实在使用TFIDF,非常幼稚。我做了第一个版本的摩天大楼内容助手,然后把网站当成小白鼠。嗯,基本上失败了。一头雾水,和2018年11月回国探亲的同学(美国读博士)讨论,其实TFIDF算法是对的,只是系数不对,打分算法不正确(博士是博士)。
2019年1月左右,码迷对算法进行了修改,通过对数百万验证集数据的训练,得到了最优系数参数。然后准备了100个自然搜索词来验证新相关算法预测的排名与实际排名(负交叉验证)的重叠情况,数据基本符合预期。
第二次成功案例验证
为了验证摩天大楼工具确实有用,我们不仅通过实际的一线验证取得了不错的效果,还通过交叉验证证明了摩天大楼的内置算法不仅有效而且准确现有的搜索引擎结果。您可以前往“摩天大楼内容助手案例专区”查看近期案例。
No. 3 国外TFIDF工具很受欢迎
目前,码迷们在国内市场甚至在培训机构都没有发现摩天大楼内容助手这样的TFIDF深度分析工具,但不排除有大佬内部开发。国外的TFIDF工具主要有两个,确实也得到了很多大牛的验证(国外SEO大神Matt亲自验证text-tools有效,国外SEO大神的博文:)
我们知道百度在技术上一直跟随谷歌。如果TFIDF能用在GOOGLE上,用在百度上是有远见的,再明智不过了。
国外SEO大神强推TF*IDF
国外SEO大神强推TF*IDF
最终总结
首先,摩天大楼内容助手不是黑帽专属的SEO工具,但也可以配合SEO优化网站的内容,达到更好的效果;
其次,开发者代码迷觉得摩天大楼内容助手是一个白帽SEO工具,需要静下心来认真做内容。很多SEO站长总是想做泛目录的快速排名和排名,但是想想如果大家不生产高质量的内容,百度就得不到好的内容,只会让SEO市场越来越小,越来越差。
所以,SEO同仁一定不要忘记初心,才可以继续;有时候要优化,更需要大家慢慢来,慢一点,快一点,十全十美。
最后,摩天大楼内容助手只是SEO工具链中的一个内容构建工具。它很年轻,所以算法不是100%完美,但从数据引导的科学SEO优化的角度来看,它确实可以为大家打开一个新世界。!节省精力和时间。我希望您能包容并感谢您的宝贵意见。
试用了一段时间,我认为就SEO技术算法而言,它是最可靠的SEO工具之一。有兴趣的朋友可以试试。
摩天大楼内容SEO助手官方地址: