用百度ai开发伪原创工具
优采云 发布时间: 2020-08-22 14:38用百度ai开发伪原创工具
今天我讲为何你通过采集发的文章没有排行,没有收录,甚至被K站。有些高手觉得是运气,哈哈哈哈嗝。很多人不知道所以然,往往是由于自己根本就不知道百度飓风是哪些玩意儿。
已知无用的伪原创手段
《SEO实战密码》 中总结了6种内容作弊手段,这些都早已被百度辨识了。无论是同义词替换还是简单在原先文章上做修改,都早已没有收录的机率。其中早已没有用的伪原创手段包括如下:
1 更改(完全重画)标题
2 颠倒段落顺序
2 加一段原创,如在最前面加一段内容摘要
3 文字简单增减,如感慨词、修饰词
4 同义词反义词替换
5 强行插入关键词,如在一篇小说中强行插入关键词
如果说作为黑帽SEO大神的你还用以上这种手段,放下屠刀立地成佛吧,该干啥的干啥去,别浪费时间。
为什么同义词替换没有用?
这块百度早已说了百度有自己的同义词库了,还有人做伪原创光用同义词替换,尤其是某个站长工具站也推出了同义词替换工具,名曰智能伪原创。智能个毛啊,你比百度智能??
比如你再百度搜索xx牌子好的时侯,品牌也会飘红。
AI伪原创
本来不敢写AI伪原创方面的评测,害怕会招惹个别人,但是码迷找了几个圈子里边用伪原创的站长,反馈飓风3上线后,收录是三天不如三天,比如明天发1000篇伪原创文章,下午就剩下收录500篇,明天收录收录不到100篇,90%以上伪原创内容的都被百度辨识掉了。
如下图左侧是原文,右边是AI伪原创的结果,可以见到无论是语句次序还是好多成语,都发生了变化。基本每位语句都不是相同的。最近很多人都热推AI伪原创,认为可以通过百度收录,可以取得排行。
嗯嗯嗯AI伪原创好屌,专注于采集的老王站长认为自己早已打通了筋络脉络,终于可以大干一场了。
然后码迷直接问了做智能伪原创的店家有没有过百度的案例,然后被他喷了,被他喷了。。。“我欠你的吗”?
江湖上留传的SEO指纹算法
码迷时常见到《某某SEO:搜索引擎是怎样辨识内容原创的?独家解密SEO指纹算法!》,感觉太有道理的样子,出处在那里?如果是自己编的,这里省略100字。
百度3代伪原创辨识系统
SEO大神跟小白的区别是哪些?就是知其然知其所以然。码迷见过太多自以为牛逼的站长被自己打脸了,这还没有轮到百度打脸。不知道原理就开始瞎搞,有个毛线疗效。来吧,跟码迷一块深入飓风算法吧。
重复的判定系统及其判别方式》专利,这是2011年左右的老专利了,可以说是百度结构化数据做simhash。
通过这些辨识手段,采集来连标题都不改正,正文也不更改的,基本没戏了。
主要步骤如下:
在本施行例中,进行网页重复的判别时,如果两个网页满足下边任意一项,则觉得这两个网页是真重复 :
1、两个网页的真实标题签名相同。
2、两个网页的网页内容签名相同。
3、两个网页的网页正文签名的不同位数大于 6。
4、两个网页的网页位置签名相同,并且 url 文件名签名相同。
5、评论块签名、资源签名、标签标题签名、摘要签名、url 文件名签名中有三个签名相同。
缺点:
这个算法要对网页五个维度走签名估算,码迷认为这个算法估算量太多了,估计百度试用了一段时间就舍弃了。
另外更改一个字签名就不一样了,很容易破。
中,提取出一个最长语句,根据提取出的最长语句的签名进行分组,同组内依照title的皮尔逊距离(计算网页内容的相似度)和链接发觉时间进行原创性网页的辨识,即判定同组内谁是真正的原创。
优点:
该原创度辨识方式码迷猜想应当存在了太长太长时间,这种方式优点估算量小小的哦。
缺点(硬伤啊):
仅仅通过最长短语作为根据,误判率相当高。
第3代百度原创辨识手段:
因为第二代的手段疗效太不好,所以百度总算推出了飓风算法( 2017年7月7日上线),而对应的专利在2017年3月底提出的申请,那么时间点也比较吻合。基本思想是对语句使用simhash算法做签名,然后用汉明距离做原创度测量。
什么是同义词级别simhash
看不懂没关系,先了解simhash算法一点皮毛,码迷简单举一个事例,一图胜千言。
如果您是算法专家,可以访问传送门:了解simhash算法。
AI伪原创能过百度原创吗?基础假定
那么回到AI原创的问题,因为百度飓风3.0根据短语级别的simhash进行去重,我们假定:
前置条件1:对语句宽度为100个字,进行伪原创
前置条件2:把语句的签名做对比,伪原创后编辑距离位数大于10,并且汉明距离大于10,并且汉明相似度小于80%
判定结果:抄袭
百度内部肯定有自己的汉明距离临界值,100个字符的诗句早已是太长短句了,实际中百度的汉明距离临界值应当更小,我们里面假定中的早已相当笼统了。
不了解编辑距离,汉明距离(也叫海明距离)的可以看
百度百科《编辑距离》:
百度百科《海明距离》:
你不会编程没事,码迷会。码迷有现成的动词方式,也有停止词过滤程序,直接用github上的程序。
参考:
码迷随意找了一篇网易的文章,做一下simhash的编辑距离跟汉明距离。
AI伪原创工具评测1:
最终结果:
没有过假定的百度原创关,编辑距离为6,海明距离为8,相似度高达87.5%
AI伪原创工具评测2:
码迷不死心,又要了另外一家AI伪原创:
最终结果:
没有过假定的百度原创关,编辑距离为7,海明距离为10,相似度高达84.3%
AI伪原创工具评测3:
码迷还是不死心,又要了另外一家AI伪原创:
最终结果:
他xx的哪些破AI伪原创,编辑距离只有4,海明距离为6,相似度高达90%!被百度干的渣渣都不剩,别误人子弟好不好?
结论
首先、直接伪原创不容易过百度原创
人家百度几千号人来做开发呢,就凭一个伪原创才能过了百度检查吗?所以你们千万不要直接采集人家的内容,稍微伪原创就发到自己网站上了,这就是作死。
其次、同义词替换句子颠倒没毛用
某些网站声称几十万的同义词反义词词库,码迷告诉你们,百度为了压缩索引,同义词词库可比大家任何词库都丰富的多,人家的同义词库还是分词性的。另外句子颠倒不会影响simhash算法结果哦。
如何做采集过原创
但是人家有些人靠采集就能作出排行了,这是为什么?有些人靠采集组合也能有排行,即使不用上伪原创才能上百度排行。码迷一个合作伙伴网站,还没上去就被飓风算法打的渣渣都不剩了,但是经过码迷研究,让其更新采集组合算法以后,又恢复了往日的精彩~
下一篇文章我们将讨论怎样能够通过采集过百度原创判断算法,因为虽然是不断的投入研究实验耗费了大量精力,所以码迷将在通过码迷官方群734299959,通过群直播的形式带你走入百度飓风算法3.0的叛变之旅。
本文网址:
本站内容均为「码迷SEO」原创整理,未经授权禁止采集转载,违者必究。