稿件采集(tr算法提取摘要再人工重组新的文章怎么去伪原创)

优采云发布时间: 2021-11-12 14:02

　　一直在思考如何正确高效的处理seo，如何处理采集的文章和洗稿。如果是人工操作，那就太麻烦了。采集文章没有继续伪原创，怕被飓风算法击中。

　　1、tr算法提取摘要，然后人工重组新的文章。

　　就在今天，我在python中发现了textrank4zh库，它依赖jieba、numpy和networkx库，可以通过tr算法提取文章的抽象。然后根据摘要手动洗稿，整合成一个全新的文章。

　　在anthoneycomb上测试一个问答，anthoneycomb问答下面有很多答案，通过python爬取所有内容，然后用tr算法提取摘要，根据摘要重新整理一个新的< @文章。这基本上成功地避免了飓风算法。

　　先安装依赖库，然后使用tr4进行抽象提取。

　　from textrank4zh import TextRank4Keyword, TextRank4Sentencecontent = "" # 这里是内容 html content from python采集 text = re.sub('',",content)text = re.sub(r'\s',", text)zy = ”tr4s = TextRank4Sentence()tr4s.analyze(text=text, lower=True, source ='all_filters')# 可以修改num值，设置摘要长度。对于 tr4s.get_key_sentences(num=10): zy = zy + item.sentence 中的项目

　　2.使用谷歌翻译双向翻译和洗稿

　　之前接触过一个所谓的人工智能洗稿网站优采云。他说他用NLP算法洗稿子。本来以为洗稿只能用同义词代替。

　　研究了优采云，第一感觉这绝对不是用所谓的NLP算法洗稿。经过研究，我发现它可能是使用谷歌翻译的双向翻译，即先从中文翻译成英文，然后再翻译。英文然后翻译成中文。

　　我也开发了这样一个伪原创工具，发现其实不好用。如果不仔细阅读，这样翻译出来的文章还是可以看懂的，但是如果仔细阅读的话。事实上，语法习惯和用词根本不准确，甚至在某些情况下，改变了这句话的原创语义。

0

2021-11-12

稿件采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

稿件采集(tr算法提取摘要再人工重组新的文章怎么去伪原创)

0 个评论

发起人

AI时代内容工厂

稿件采集(tr算法提取摘要再人工重组新的文章怎么去伪原创)

0 个评论

发起人

相关问题