用百度ai开发伪原创工具

优采云 发布时间: 2020-08-22 14:38

  用百度ai开发伪原创工具

  今天我讲为何你通过采集发的文章没有排行,没有收录,甚至被K站。有些高手觉得是运气,哈哈哈哈嗝。很多人不知道所以然,往往是由于自己根本就不知道百度飓风是哪些玩意儿。

  已知无用的伪原创手段

  《SEO实战密码》 中总结了6种内容作弊手段,这些都早已被百度辨识了。无论是同义词替换还是简单在原先文章上做修改,都早已没有收录的机率。其中早已没有用的伪原创手段包括如下:

  1 更改(完全重画)标题

  2 颠倒段落顺序

  2 加一段原创,如在最前面加一段内容摘要

  3 文字简单增减,如感慨词、修饰词

  4 同义词反义词替换

  5 强行插入关键词,如在一篇小说中强行插入关键词

  如果说作为黑帽SEO大神的你还用以上这种手段,放下屠刀立地成佛吧,该干啥的干啥去,别浪费时间。

  为什么同义词替换没有用?

  这块百度早已说了百度有自己的同义词库了,还有人做伪原创光用同义词替换,尤其是某个站长工具站也推出了同义词替换工具,名曰智能伪原创。智能个毛啊,你比百度智能??

  比如你再百度搜索xx牌子好的时侯,品牌也会飘红。

  AI伪原创

  本来不敢写AI伪原创方面的评测,害怕会招惹个别人,但是码迷找了几个圈子里边用伪原创的站长,反馈飓风3上线后,收录是三天不如三天,比如明天发1000篇伪原创文章,下午就剩下收录500篇,明天收录收录不到100篇,90%以上伪原创内容的都被百度辨识掉了。

  如下图左侧是原文,右边是AI伪原创的结果,可以见到无论是语句次序还是好多成语,都发生了变化。基本每位语句都不是相同的。最近很多人都热推AI伪原创,认为可以通过百度收录,可以取得排行。

  嗯嗯嗯AI伪原创好屌,专注于采集的老王站长认为自己早已打通了筋络脉络,终于可以大干一场了。

  然后码迷直接问了做智能伪原创的店家有没有过百度的案例,然后被他喷了,被他喷了。。。“我欠你的吗”?

  江湖上留传的SEO指纹算法

  码迷时常见到《某某SEO:搜索引擎是怎样辨识内容原创的?独家解密SEO指纹算法!》,感觉太有道理的样子,出处在那里?如果是自己编的,这里省略100字。

  百度3代伪原创辨识系统

  SEO大神跟小白的区别是哪些?就是知其然知其所以然。码迷见过太多自以为牛逼的站长被自己打脸了,这还没有轮到百度打脸。不知道原理就开始瞎搞,有个毛线疗效。来吧,跟码迷一块深入飓风算法吧。

  重复的判定系统及其判别方式》专利,这是2011年左右的老专利了,可以说是百度结构化数据做simhash。

  通过这些辨识手段,采集来连标题都不改正,正文也不更改的,基本没戏了。

  主要步骤如下:

  在本施行例中,进行网页重复的判别时,如果两个网页满足下边任意一项,则觉得这两个网页是真重复 :

  1、两个网页的真实标题签名相同。

  2、两个网页的网页内容签名相同。

  3、两个网页的网页正文签名的不同位数大于 6。

  4、两个网页的网页位置签名相同,并且 url 文件名签名相同。

  5、评论块签名、资源签名、标签标题签名、摘要签名、url 文件名签名中有三个签名相同。

  缺点:

  这个算法要对网页五个维度走签名估算,码迷认为这个算法估算量太多了,估计百度试用了一段时间就舍弃了。

  另外更改一个字签名就不一样了,很容易破。

  中,提取出一个最长语句,根据提取出的最长语句的签名进行分组,同组内依照title的皮尔逊距离(计算网页内容的相似度)和链接发觉时间进行原创性网页的辨识,即判定同组内谁是真正的原创。

  优点:

  该原创度辨识方式码迷猜想应当存在了太长太长时间,这种方式优点估算量小小的哦。

  缺点(硬伤啊):

  仅仅通过最长短语作为根据,误判率相当高。

  第3代百度原创辨识手段:

  因为第二代的手段疗效太不好,所以百度总算推出了飓风算法( 2017年7月7日上线),而对应的专利在2017年3月底提出的申请,那么时间点也比较吻合。基本思想是对语句使用simhash算法做签名,然后用汉明距离做原创度测量。

  什么是同义词级别simhash

  看不懂没关系,先了解simhash算法一点皮毛,码迷简单举一个事例,一图胜千言。

  如果您是算法专家,可以访问传送门:了解simhash算法。

  AI伪原创能过百度原创吗?基础假定

  那么回到AI原创的问题,因为百度飓风3.0根据短语级别的simhash进行去重,我们假定:

  前置条件1:对语句宽度为100个字,进行伪原创

  前置条件2:把语句的签名做对比,伪原创后编辑距离位数大于10,并且汉明距离大于10,并且汉明相似度小于80%

  判定结果:抄袭

  百度内部肯定有自己的汉明距离临界值,100个字符的诗句早已是太长短句了,实际中百度的汉明距离临界值应当更小,我们里面假定中的早已相当笼统了。

  不了解编辑距离,汉明距离(也叫海明距离)的可以看

  百度百科《编辑距离》:

  百度百科《海明距离》:

  你不会编程没事,码迷会。码迷有现成的动词方式,也有停止词过滤程序,直接用github上的程序。

  参考:

  码迷随意找了一篇网易的文章,做一下simhash的编辑距离跟汉明距离。

  AI伪原创工具评测1:

  最终结果:

  没有过假定的百度原创关,编辑距离为6,海明距离为8,相似度高达87.5%

  AI伪原创工具评测2:

  码迷不死心,又要了另外一家AI伪原创:

  最终结果:

  没有过假定的百度原创关,编辑距离为7,海明距离为10,相似度高达84.3%

  AI伪原创工具评测3:

  码迷还是不死心,又要了另外一家AI伪原创:

  最终结果:

  他xx的哪些破AI伪原创,编辑距离只有4,海明距离为6,相似度高达90%!被百度干的渣渣都不剩,别误人子弟好不好?

  结论

  首先、直接伪原创不容易过百度原创

  人家百度几千号人来做开发呢,就凭一个伪原创才能过了百度检查吗?所以你们千万不要直接采集人家的内容,稍微伪原创就发到自己网站上了,这就是作死。

  其次、同义词替换句子颠倒没毛用

  某些网站声称几十万的同义词反义词词库,码迷告诉你们,百度为了压缩索引,同义词词库可比大家任何词库都丰富的多,人家的同义词库还是分词性的。另外句子颠倒不会影响simhash算法结果哦。

  如何做采集过原创

  但是人家有些人靠采集就能作出排行了,这是为什么?有些人靠采集组合也能有排行,即使不用上伪原创才能上百度排行。码迷一个合作伙伴网站,还没上去就被飓风算法打的渣渣都不剩了,但是经过码迷研究,让其更新采集组合算法以后,又恢复了往日的精彩~

  下一篇文章我们将讨论怎样能够通过采集过百度原创判断算法,因为虽然是不断的投入研究实验耗费了大量精力,所以码迷将在通过码迷官方群734299959,通过群直播的形式带你走入百度飓风算法3.0的叛变之旅。

  本文网址:

  本站内容均为「码迷SEO」原创整理,未经授权禁止采集转载,违者必究。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线