google英语伪原创(Google是如何判断原创与伪原创的呢？（上）)

优采云发布时间: 2021-11-27 13:07

　　我们在做站群的时候，无法避免*敏*感*词*的产生大量的内容。一般我们依赖采集+伪原创。谷歌对伪原创的判断比百度好。很多人都来过这里。根据老毛手上的数据，我们来看看谷歌是如何判断原创和伪原创的。首先，我们要先掌握几个概念：

　　1. 相似性

　　相似性是搜索引擎最可重用的算法。最常用的算法是TF/IDF算法。这也是一种计算相关性的算法。TF-IDF的主要含义是说：如果一个词或词组在一个文章文章中出现频繁，而在其他文章中很少出现，则认为该词或词组具有良好的分类能力，适合分类。

　　2.数据指纹

　　搜索引擎通过相似度采集到文章后，需要判断是否是重复的文章。经常使用数据指纹。数据指纹有很多算法。常见的如文章提出的标点符号，为了对比，你很难想象有两个不同的文章，标点符号是一致的。还有一个比较向量，就是TF词频（关键词密度）等等来判断。

　　3.代码噪声

　　以上都是基于一个条件，即搜索引擎需要知道文章是什么，因为每个网站都有不同的模板和不同的代码，各种信息混杂在一起。如果能够找到文本是搜索引擎必须处理的第一件事。一般谷歌会区分代码的布局和噪声比，哪些是导航，哪些是文本，可以忽略一些典型的代码。所以我们在制作模板的时候一定要注意。这里有个纠结点，就是降低整个页面的杂音，方便搜索引擎确认文本，但是文本区域要适当晾干，增加搜索引擎识别重复性的难度。

0

2021-11-27

google英语伪原创

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

google英语伪原创(Google是如何判断原创与伪原创的呢？（上）)

0 个评论

发起人