如何正确的处理seo中的伪原创和洗稿?
优采云 发布时间: 2021-06-27 18:25如何正确的处理seo中的伪原创和洗稿?
一直在思考如何正确高效的处理seo,采集的文章如何伪原创洗稿。如果是人工操作,那就太麻烦了。 采集文章不能伪原创怕被飓风算法打中。
1. tr算法提取摘要,然后人为重组新的文章。
就在今天,我在python中发现了textrank4zh库,它依赖jieba、numpy和networkx库,可以通过tr算法提取文章的抽象。然后根据摘要手动洗稿,整合成全新的文章。
在马蜂窝上测试一个问答。下面是很多答主的内容。使用python抓取所有内容,然后使用tr算法提取摘要,并根据摘要重新整理新的文章。这基本上成功地避开了飓风算法。
先安装依赖库,然后使用tr4进行抽象提取。
from textrank4zh import TextRank4Keyword, TextRank4Sentencecontent = "" # 这里是内容 html content from python采集 text = re.sub('','',content)text = re.sub(r'\s', '',text)zy =''tr4s = TextRank4Sentence()tr4s.analyze(text=text,lower=True, source ='all_filters')#可以修改num值,设置摘要长度。对于 tr4s.get_key_sentences(num=10): zy = zy + item.sentence
中的项目
2、用google翻译双向翻译洗稿
之前接触过一个所谓的人工智能洗稿网站优采云,说到用NLP算法洗稿,本来以为洗稿只有同义词。
研究优采云后,第一感觉这绝对不是用所谓的NLP算法洗稿。经过研究,我发现它可能是使用谷歌翻译的双向翻译,即先从中文翻译成英文,然后翻译出来的英文再翻译成中文。
我也开发了这样的伪原创工具,发现其实不好用。如果不仔细阅读,双向翻译的文章还是可以看懂的,但是如果仔细阅读的话。事实上,语法习惯和用词根本不准确,甚至在某些情况下,改变了这句话的原创语义。