稿件采集(tr算法提取摘要再人工重组新的文章怎么去伪原创)

优采云 发布时间: 2021-11-12 14:02

  稿件采集(tr算法提取摘要再人工重组新的文章怎么去伪原创)

  一直在思考如何正确高效的处理seo,如何处理采集的文章和洗稿。如果是人工操作,那就太麻烦了。采集文章没有继续伪原创,怕被飓风算法击中。

  1、tr算法提取摘要,然后人工重组新的文章。

  就在今天,我在python中发现了textrank4zh库,它依赖jieba、numpy和networkx库,可以通过tr算法提取文章的抽象。然后根据摘要手动洗稿,整合成一个全新的文章。

  在anthoneycomb上测试一个问答,anthoneycomb问答下面有很多答案,通过python爬取所有内容,然后用tr算法提取摘要,根据摘要重新整理一个新的< @文章。这基本上成功地避免了飓风算法。

  先安装依赖库,然后使用tr4进行抽象提取。

  from textrank4zh import TextRank4Keyword, TextRank4Sentencecontent = "" # 这里是内容 html content from python采集 text = re.sub('',",content)text = re.sub(r'\s',", text)zy = ”tr4s = TextRank4Sentence()tr4s.analyze(text=text, lower=True, source ='all_filters')# 可以修改num值,设置摘要长度。对于 tr4s.get_key_sentences(num=10): zy = zy + item.sentence 中的项目

  2.使用谷歌翻译双向翻译和洗稿

  之前接触过一个所谓的人工智能洗稿网站优采云。他说他用NLP算法洗稿子。本来以为洗稿只能用同义词代替。

  研究了优采云,第一感觉这绝对不是用所谓的NLP算法洗稿。经过研究,我发现它可能是使用谷歌翻译的双向翻译,即先从中文翻译成英文,然后再翻译。英文然后翻译成中文。

  我也开发了这样一个伪原创工具,发现其实不好用。如果不仔细阅读,这样翻译出来的文章还是可以看懂的,但是如果仔细阅读的话。事实上,语法习惯和用词根本不准确,甚至在某些情况下,改变了这句话的原创语义。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线