百度伪原创检测工具(为什么你通过采集发的文章没有排名被K站？ )

优采云发布时间: 2021-09-28 02:01

　　百度伪原创检测工具(为什么你通过采集发的文章没有排名被K站？

)

　　自8月底飓风算法3.0上线以来，仅仅过去了20天，也就是2019年9月18日。百度发布了搜索违规处理通知，共处理了528万条不良信息案例采集网站。相信很多站长都欲哭无泪。

　　中国大环境浮躁，很多SEO人喜欢吃快餐。优采云、DEDEcms采集程序火爆，伪原创的工具也别具一格。但是3.0飓风过后，如果不改变采集的方式，采集会死得更快！

　　很多站长都没有意识到事情的严重性，一些智者（SHA）（HAI）（ZI）和一些纯粹的采集，一些牛破站长发誓要跟着代码粉丝说，老子的站还是收录没问题，老子的算法可以通过百度的原创检测，老子的伪原创工具很给力。你甚至不看你的网站收录。有500w，但是有多少索引词有排名？一周内收录还会增加多少？

　　您的采集站已关闭，而人们确实会出现原创。Duang，一个代码迷的合作网站，突然词汇量翻倍，尴尬，幸福来的这么突然，哈哈哈。

　　好歹百度也养了一批985、211程序员。大搜的算法虽然垃圾，但百度三代原创检测系统升级后，大部分伪原创的方法至今没有效果。但这不代表你不能做采集，也不代表你不能做伪原创。码迷觉得飓风算法3.0没那么深，路一尺高，魔方一尺高。

　　同样是采集，同样是伪原创。有些人发了100篇文章，百度做了100次。而有的人发100篇文章，就可以进入百度的重要索引，索引词都在。

　　比如下面这个例子，采集处理的也是优质内容，就是首页排名。

　　今天就说说为什么你通过采集发送的文章没有排名，没有收录，甚至被K驻守。一些大神认为是运气，哈哈哈哈。很多人不知道，往往是因为他们甚至不知道百度飓风是什么。

　　已知无用伪原创意味着

　　《SEO实战密码》总结了6种内容作弊方式，已被百度识别。无论是同义词替换，还是干脆对原来的文章进行改动，都不可能出现收录。不再有用的伪原创方法包括以下内容：

　　1 更改（完全重写）标题

　　2 颠倒段落顺序

　　2 添加段落原创，比如在开头添加内容摘要

　　3 简单的文字增删改查，如感叹词、修饰语

　　4 同义词替换

　　5 强行插入关键词，如在小说中强行插入关键词

　　如果你作为一个黑帽SEO高手，还用上面的方法，放下屠刀成佛，做你该做的，别浪费时间了。

　　百度这块已经说了，百度有自己的词库，有的人做伪原创只是用同义词替换，特别是某站长工具站还推出了同义词替换工具，叫做Smart伪原创。聪明人，你比百度聪明吗？?

　　例如，当您在百度上搜索xx 品牌时，这些品牌就会变得流行。

　　不敢写AI伪原创的评论，怕会得罪一些人，但在圈内找了几个用伪原创的站长，举报飓风3上线后, 收录@ >一日不如一日。比如你今天发了1000个伪原创文章，下午就会有收录500个，明天收录收录不到100个，伪原创 90%以上的内容已被百度识别。

　　如下图，左边是原文，右边是AI伪原创的结果。可以看到句子和很多单词的顺序都发生了变化。基本上每个句子都不一样。最近很多人都在热推AI伪原创，认为百度收录可以用来排名。

　　呵呵，AI伪原创好鸡巴，关注采集的老站长感觉自己筋骨都打开了，终于可以大干一场了。

　　然后码迷直接问了做smart伪原创的卖家有没有百度的情况，然后就被他喷了又喷了。. . “我欠你的”？

　　码迷偶尔看到《SEO：搜索引擎如何识别内容原创？独家揭秘SEO指纹算法！》感觉很有道理。来源在哪里？如果是自己做的，这里省略100字。

　　SEO高手和小白有什么区别？只要知道它是什么以及为什么会这样。我见过太多的站长认为自己很棒，然后给自己打耳光。还没有轮到百度打他们。不知道原理就开始乱搞，有毛线效果。来吧，和粉丝一起潜入飓风算法。

　　根据专利《CN2-A网页重复判断系统及其判断方法》，这是2011年左右的老专利，可以说是百度第一代伪原创识别系统。主要的方法是对网页的结构化数据做simhash。

　　通过这种识别方式，采集连标题和正文都没有修改，基本没戏了。

　　主要步骤如下：

　　在本实施例中，在判断网页重复时，如果两个网页满足以下任意一项，则认为这两个网页是真实重复的：

　　1、两个网页真实标题的签名是一样的。

　　2、两个网页的网页内容的签名是一样的。

　　3、两页正文签名中的不同位数少于6位。

　　4、两个网页的页面位置签名相同，url文件名签名相同。

　　5、评论块签名、资源签名、标签标题签名、摘要签名、url文件名签名三个签名是一样的。

　　缺点：

　　该算法需要对网页的五个维度进行签名计算。代码迷觉得这个算法计算量太大了。估计百度试了一段时间就放弃了。

　　另外，修改一个字符签名就不一样了，很容易破解。

　　很多人说“百度就是垃圾”，码迷觉得有道理。码迷表示，第一代计算量太大，成本高。毕竟竞价排名赚钱。自然排名是通过这种高级重复数据删除算法实现的。彦宏不喜欢。那么如何找到最简单的减肥方法呢？

　　百度程序员说：

　　让我们从整个网页中提取一个最长的句子，并根据提取的最长句子的签名对其进行分组。在同组中，会根据标题的Pearson距离（计算网页内容的相似度）和链接发现时间进行原创性网页的识别，即判断谁是同组真正的原创。

　　优势：

　　这个原创度识别方法码迷推测应该已经存在很久很久了。这种方法的优点是计算量小。

　　缺点（残缺）：

　　仅以最长的句子为依据，误判率相当高。

　　由于二代方法效果不佳，百度终于推出了飓风算法（2017年7月7日上线），并且相应的专利申请是在2017年3月底，所以时间点也比较一致。基本思想是用simhash算法对句子进行签名，然后用汉明距离做原创度检测。

　　什么是同义词级 simhash

　　不懂也没关系，先了解一下simhash算法吧。码迷简单举个例子。一张图片胜过千言万语。

　　如果您是算法专家，可以访问门户：了解 simhash 算法。

　　那么回到AI原创的问题，因为百度飓风3.0根据句子级别的simhash去重，我们假设：

　　前提1：伪原创为100字的句子长度

　　先决条件2：比较句子的签名，伪原创，编辑距离后位数小于10，汉明距离小于10，汉明相似度大于80%

　　判断结果：抄袭

　　百度一定有自己的汉明距离阈值。一个 100 个字符的句子已经是一个很长的句子。其实百度的汉明距离阈值应该更小。我们上面的假设已经相当广泛。

　　如果不知道编辑距离，可以看汉明距离（也叫汉明距离）

　　百度百科“编辑距离”：%E7%BC%96%E8%BE%91%E8%B7%9D%E7%A6%BB/8010193?fr=aladdin

　　百度百科《汉明距离》：%E6%B5%B7%E6%98%8E%E8%B7%9D%E7%A6%BB/4235876?fr=aladdin

　　你不会编程，没关系，代码爱好者会的。码迷有现成的分词方法，还有停用词过滤程序，直接使用github上的程序。

　　参考：

　　码迷在网易的文章上随便找了一篇文章，询问simhash的编辑距离和汉明距离。

　　最后结果：

　　百度的原创级别无假设，编辑距离6，汉明距离8，相似度高达87.5%

　　马咪不死心，又要了一个AI伪原创：

　　最后结果：

　　百度的原创级无假设，编辑距离7，汉明距离10，相似度高达84.3%

　　码迷还不死心，又要了一个AI伪原创：

　　最后结果：

　　他xx什么破AI伪原创，编辑距离才4，汉明距离6，相似度高达90%！百度一个渣子都没有了，别让孩子走，好吗？

　　首先，直接伪原创传百度原创并不容易

　　如果百度有几千人做开发，一个伪原创能通过百度测试吗？所以大家，不要直接采集别人的内容，给自己网站发一点伪原创，这就是死。

　　其次，反义词替换句子没用

　　一些网站声称拥有数十万同义词数据库。码迷告诉大家百度的词库比你们任何词库都要丰富得多，为了压缩索引，他们的词库还是词性。另外，句子反转不会影响simhash算法的结果。

　　但是有些人是靠采集来做排名的。为什么？有些人可以通过采集的组合进行排名，即使不需要去伪原创，也可以在百度上排名。码凡网站的一个合伙人，还没起床之前被飓风算法打过的人渣，但是码凡研究过要求他更新采集组合算法后，又回到了过去的美好~

0

2021-09-28

百度伪原创检测工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度伪原创检测工具(为什么你通过采集发的文章没有排名被K站？ )

0 个评论

发起人

AI时代内容工厂

百度伪原创检测工具(为什么你通过采集发的文章没有排名被K站？ )

0 个评论

发起人

相关问题