伪原创相似度查询(Google是如何判断原创与伪原创的呢?|济南儿童医院)
优采云 发布时间: 2022-04-14 10:31伪原创相似度查询(Google是如何判断原创与伪原创的呢?|济南儿童医院)
我们在济南儿童医院做站群的时候,不可避免地会产生大量的内容。一般我们依靠采集+伪原创,谷歌对伪原创的判断比百度的要准确很多。根据老毛手上的数据,我们来看看谷歌是如何判断原创和伪原创的。首先,我们要掌握几个概念:1.Similarity 相似度是搜索引擎中复用最多的算法。用得最多的就是TF/IDF算法,也是一种计算相关性的算法,TF-IDF的主要意思是说:如果一个词或短语在一个文章中出现频率很高,而在一个文章中很少出现其他文章,认为该词或词组具有良好的类别辨别能力,适合进行分类。TF 词频(Term Frequency)是指给定词在文件中出现的次数。IDF逆文档频率是指:如果收录词条的文档越少,IDF越大,说明词条区分类别的能力很好。当根据TF/IDF计算出一个文章时,就形成了一个多维向量。这个向量就是这个文章的内容特征向量。当两个文章的特征向量趋于一致时,我们认为这两个文章的内容是相似的,如果一致,就说明它们是重复的。TF/IDF和向量算法的详细介绍,请参考Google Blackboard' s 数学之美 12-余弦定理与新闻分类2.数据指纹当搜索引擎通过相似度采集文章时,必须判断是否重复文章,经常使用数据指纹。数据指纹的算法有很多,比如文章的标点符号。为了比较,很难想象有两个不同的文章 @文章,标点符号是一致的。
还有一个向量的比较,就是TF词频(关键词密度)等来判断。这时候,你可以想象很多伪原创工具只是替换了关键词。想要替换关键词后,标点指纹不会改变,甚至TF词频也不会改变。持续的。还有一个文章的段落翻拍,确实把标点搞乱了,但是向量和词频问题依然存在。那么你可以想象这样的 伪原创 工具的价值。(对百度来说可能还是有用的)3.上面提到的代码噪音是基于一个条件,就是搜索引擎需要知道文章是什么,因为每个网站都有模板不一样,代码不一样,各种信息混在一起。如果能找到文本,这是搜索引擎首先要处理的事情。一般谷歌会区分代码的布局和噪声比,哪些是导航,哪些是文本,可以忽略一些典型代码。所以我们在制作模板的时候一定要注意。这里有个纠结点,就是整页降噪方便搜索引擎确认文字,但要适当增加文字区域,增加搜索引擎识别重复的难度。