google英语伪原创(Google是如何判断原创与伪原创的?(一))

优采云 发布时间: 2021-12-26 06:05

  google英语伪原创(Google是如何判断原创与伪原创的?(一))

  我们在建站群的时候,不能避免*敏*感*词*的产生大量的内容。一般我们靠采集

+伪原创。谷歌对伪原创的判断比百度准确得多。根据老毛手上的数据,我们来看看谷歌是如何判断原创和伪原创的。

  首先,我们要先掌握几个概念:

  1. 相似性

  相似度是搜索引擎最常用的算法。最常用的算法是TF/IDF算法,它也是一种计算相关性的算法。TF-IDF的主要含义是说:如果一个词或词组在同一篇文章中出现的频率很高,而在其他文章中很少出现,则认为这个词或词组具有良好的分类能力,适合分类。

  TF词频(Term Frequency)是指给定词在文件中出现的次数。

  IDF逆文档频率(Inverse Document Frequency)是指:如果收录

条目的文档越少,IDF越大,说明条目具有较好的类别区分能力。

  当一篇文章按照TF/IDF进行计算时,就形成了一个多维向量。这个向量就是这篇文章的内容特征向量。当两篇文章的特征向量趋于相同时,我们认为两篇文章的内容相近,如果相同,则说明是重复的。

  TF/IDF和向量算法的详细介绍请参考谷歌黑板的数学之美12-余弦定律和新闻分类

  2.数据指纹

  搜索引擎根据相似度采集

文章时,需要判断是否为重复文章。经常使用数据指纹。数据指纹有很多算法。标点符号和文章比较等常见的对您来说很困难。想象一下,有两篇不同的文章,标点符号是一致的。还有一个比较向量,就是TF词频(关键词密度)等等来判断。

  这时候,你可以想象现在很多伪原创工具只是替换了关键词,而你认为​​替换了关键词后,标点指纹是一样的,甚至TF词的出现频率也没有变化. 还有一篇文章的段落重拍。这确实打乱了标点符号,但向量和词频问题仍然存在。那么你就可以想象这种伪原创工具的价值了。(可能对百度有用)

  3.代码噪声

  以上都是基于一个条件,就是搜索引擎需要知道文章是什么,因为每个网站的模板不同,代码也不同。各种信息混杂在一起。如果你能找到文本,搜索引擎是第一个。待处理。

  一般谷歌会区分代码的布局和噪声比,哪些是导航,哪些是文本,可以忽略一些典型的代码。所以我们在制作模板的时候一定要注意。这里有一个纠结点,就是整页降噪,方便搜索引擎确认文字,但文字区域要适当干燥,增加搜索引擎识别重复性的难度。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线