伪原创相似度查询(Google是如何判断原创与伪原创的呢？|济南儿童医院)

优采云发布时间: 2022-04-14 10:31

　　我们在济南儿童医院做站群的时候，不可避免地会产生大量的内容。一般我们依靠采集+伪原创，谷歌对伪原创的判断比百度的要准确很多。根据老毛手上的数据，我们来看看谷歌是如何判断原创和伪原创的。首先，我们要掌握几个概念：1.Similarity 相似度是搜索引擎中复用最多的算法。用得最多的就是TF/IDF算法，也是一种计算相关性的算法，TF-IDF的主要意思是说：如果一个词或短语在一个文章中出现频率很高，而在一个文章中很少出现其他文章，认为该词或词组具有良好的类别辨别能力，适合进行分类。TF 词频（Term Frequency）是指给定词在文件中出现的次数。IDF逆文档频率是指：如果收录词条的文档越少，IDF越大，说明词条区分类别的能力很好。当根据TF/IDF计算出一个文章时，就形成了一个多维向量。这个向量就是这个文章的内容特征向量。当两个文章的特征向量趋于一致时，我们认为这两个文章的内容是相似的，如果一致，就说明它们是重复的。TF/IDF和向量算法的详细介绍，请参考Google Blackboard' s 数学之美 12-余弦定理与新闻分类2.数据指纹当搜索引擎通过相似度采集文章时，必须判断是否重复文章，经常使用数据指纹。数据指纹的算法有很多，比如文章的标点符号。为了比较，很难想象有两个不同的文章 @文章，标点符号是一致的。

　　还有一个向量的比较，就是TF词频（关键词密度）等来判断。这时候，你可以想象很多伪原创工具只是替换了关键词。想要替换关键词后，标点指纹不会改变，甚至TF词频也不会改变。持续的。还有一个文章的段落翻拍，确实把标点搞乱了，但是向量和词频问题依然存在。那么你可以想象这样的伪原创工具的价值。（对百度来说可能还是有用的）3.上面提到的代码噪音是基于一个条件，就是搜索引擎需要知道文章是什么，因为每个网站都有模板不一样，代码不一样，各种信息混在一起。如果能找到文本，这是搜索引擎首先要处理的事情。一般谷歌会区分代码的布局和噪声比，哪些是导航，哪些是文本，可以忽略一些典型代码。所以我们在制作模板的时候一定要注意。这里有个纠结点，就是整页降噪方便搜索引擎确认文字，但要适当增加文字区域，增加搜索引擎识别重复的难度。

0

2022-04-14

伪原创相似度查询

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

伪原创相似度查询(Google是如何判断原创与伪原创的呢？|济南儿童医院)

0 个评论

发起人