如何正确的处理seo中的伪原创和洗稿？

优采云发布时间: 2021-06-27 18:25

　　如何正确的处理seo中的伪原创和洗稿？

　　一直在思考如何正确高效的处理seo，采集的文章如何伪原创洗稿。如果是人工操作，那就太麻烦了。采集文章不能伪原创怕被飓风算法打中。

　　1. tr算法提取摘要，然后人为重组新的文章。

　　就在今天，我在python中发现了textrank4zh库，它依赖jieba、numpy和networkx库，可以通过tr算法提取文章的抽象。然后根据摘要手动洗稿，整合成全新的文章。

　　在马蜂窝上测试一个问答。下面是很多答主的内容。使用python抓取所有内容，然后使用tr算法提取摘要，并根据摘要重新整理新的文章。这基本上成功地避开了飓风算法。

　　先安装依赖库，然后使用tr4进行抽象提取。

　　from textrank4zh import TextRank4Keyword, TextRank4Sentencecontent = "" # 这里是内容 html content from python采集 text = re.sub('','',content)text = re.sub(r'\s', '',text)zy =''tr4s = TextRank4Sentence()tr4s.analyze(text=text,lower=True, source ='all_filters')#可以修改num值，设置摘要长度。对于 tr4s.get_key_sentences(num=10): zy = zy + item.sentence

　　中的项目

　　2、用google翻译双向翻译洗稿

　　之前接触过一个所谓的人工智能洗稿网站优采云，说到用NLP算法洗稿，本来以为洗稿只有同义词。

　　研究优采云后，第一感觉这绝对不是用所谓的NLP算法洗稿。经过研究，我发现它可能是使用谷歌翻译的双向翻译，即先从中文翻译成英文，然后翻译出来的英文再翻译成中文。

　　我也开发了这样的伪原创工具，发现其实不好用。如果不仔细阅读，双向翻译的文章还是可以看懂的，但是如果仔细阅读的话。事实上，语法习惯和用词根本不准确，甚至在某些情况下，改变了这句话的原创语义。

0

2021-06-27

稿件采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何正确的处理seo中的伪原创和洗稿？

0 个评论

发起人