伪原创相似度查询(Google是如何判断原创与伪原创的?(一))
优采云 发布时间: 2021-09-17 09:17伪原创相似度查询(Google是如何判断原创与伪原创的?(一))
当我们进行站群时,我们无法避免*敏*感*词*生成大量内容。一般来说,我们依赖采集+伪原创,谷歌对伪原创的判断要比百度准确得多。根据老猫掌握的数据,让我们看看谷歌是如何判断原创和伪原创的@
首先,我们要掌握几个概念:
1.相似性
相似性是搜索引擎使用的最可重用的算法。TF/IDF算法也用于计算相关性。TF-IDF主要是指如果一个词或短语经常出现在一个文章中,而很少出现在另一个文章中,则认为该词或短语具有良好的区分类别的能力,适合分类
TF术语频率是指给定单词在文件中出现的次数
IDF反向文档频率意味着,如果收录条目的文档较少且IDF较大,则表明条目具有很好的区分类别的能力
当根据TF/IDF计算文章文章时,它形成多维向量,即文章文章. 当两篇文章文章的特征向量趋于一致时,我们认为这两篇文章文章的内容是相近的。如果它们是一致的,则表明它们是重复的
有关TF/IDF和向量算法的详细信息,请参阅谷歌黑板报的数学之美12余弦定理和新闻分类
2.数据指纹
当搜索引擎通过相似性采集文章时,需要判断它是否是重复的文章. 通常使用数据指纹。数据指纹有很多算法。例如,提出并比较了文章的标点符号。很难想象有两篇不同的文章文章,标点符号的巧合是一致的。此外,比较向量,即TF字频率(关键词density)等
此时,您可以想象许多伪原创工具现在只是替换了关键词而已。替换关键词后,标点符号指纹保持不变,即使TF词频也是如此。还有一段对文章的翻拍,这确实打乱了标点符号,但向量和词频的问题仍然存在。然后你可以想象这些伪原创工具的价值。(它可能仍然适用于百度)
3.代码噪声
上述内容基于一个条件,即搜索引擎应该知道文章是什么,因为每个伪原创7@模板是不同的,代码是不同的,各种信息混合在一起。如果你能找到文本,这是搜索引擎应该处理的第一件事
一般来说,谷歌会区分代码布局和噪声比,即导航和文本,并且可以忽略一些典型代码。那么我们在制作模板时应该注意。这里有一个纠结,就是整个页面的降噪便于搜索引擎确认文本,但是文本区域应该适当干燥,以增加识别搜索引擎重复性的难度