伪原创相似度查询(Google是如何判断原创与伪原创的？（一）)

优采云发布时间: 2021-09-17 09:17

　　当我们进行站群时，我们无法避免*敏*感*词*生成大量内容。一般来说，我们依赖采集+伪原创，谷歌对伪原创的判断要比百度准确得多。根据老猫掌握的数据，让我们看看谷歌是如何判断原创和伪原创的@

　　首先，我们要掌握几个概念：

　　1.相似性

　　相似性是搜索引擎使用的最可重用的算法。TF/IDF算法也用于计算相关性。TF-IDF主要是指如果一个词或短语经常出现在一个文章中，而很少出现在另一个文章中，则认为该词或短语具有良好的区分类别的能力，适合分类

　　TF术语频率是指给定单词在文件中出现的次数

　　IDF反向文档频率意味着，如果收录条目的文档较少且IDF较大，则表明条目具有很好的区分类别的能力

　　当根据TF/IDF计算文章文章时，它形成多维向量，即文章文章. 当两篇文章文章的特征向量趋于一致时，我们认为这两篇文章文章的内容是相近的。如果它们是一致的，则表明它们是重复的

　　有关TF/IDF和向量算法的详细信息，请参阅谷歌黑板报的数学之美12余弦定理和新闻分类

　　2.数据指纹

　　当搜索引擎通过相似性采集文章时，需要判断它是否是重复的文章. 通常使用数据指纹。数据指纹有很多算法。例如，提出并比较了文章的标点符号。很难想象有两篇不同的文章文章，标点符号的巧合是一致的。此外，比较向量，即TF字频率（关键词density）等

　　此时，您可以想象许多伪原创工具现在只是替换了关键词而已。替换关键词后，标点符号指纹保持不变，即使TF词频也是如此。还有一段对文章的翻拍，这确实打乱了标点符号，但向量和词频的问题仍然存在。然后你可以想象这些伪原创工具的价值。（它可能仍然适用于百度）

　　3.代码噪声

　　上述内容基于一个条件，即搜索引擎应该知道文章是什么，因为每个伪原创7@模板是不同的，代码是不同的，各种信息混合在一起。如果你能找到文本，这是搜索引擎应该处理的第一件事

　　一般来说，谷歌会区分代码布局和噪声比，即导航和文本，并且可以忽略一些典型代码。那么我们在制作模板时应该注意。这里有一个纠结，就是整个页面的降噪便于搜索引擎确认文本，但是文本区域应该适当干燥，以增加识别搜索引擎重复性的难度

0

2021-09-17

伪原创相似度查询

0 个评论

要回复文章请先登录或注册