关键句采集 原创(基于Gensim的摘要自动生成算法研究与实现吴国文)
优采云 发布时间: 2021-09-03 19:08关键句采集 原创(基于Gensim的摘要自动生成算法研究与实现吴国文)
基于Gensim的摘要自动生成算法研究与实现
肖元君吴国文*
[Abstract] Abstract 为了让计算机能够从中文文章中提取摘要,提出了一种自动中文摘要生成算法。该算法基于Gensim自然语言处理框架实现,在原有基础上进行了改进。算法主要分为两个阶段。在关键句生成阶段,对中文语料进行预处理,放入Gensim框架中的Word2vec模型中进行训练。修改TextRank算法,接受词向量的输入,生成无向图来寻找关键句;摘要生成框架构建阶段,根据Gensim框架中LDA主题模型中提取的文章结构和关键词,给句子赋予不同的权重,将几个得分高的句子组合起来生成文章摘要. Rouge文摘评价结果表明,该算法生成的文摘可以收录文章关键信息。与其他自动抽象算法相比,提高了句子含义的平滑度。
[期刊名称]“计算机应用程序和软件”
[年(卷)、期] 2019(036)012
[总页数] 6
[关键词]关键词Gensim 框架 Word2vec 模型 TextRank 算法摘要生成框架 LDA 主题模型 Rouge 摘要评测
0 简介
自动摘要技术是指利用计算机对文本进行处理,挖掘出最合适的句子。是自然语言处理领域一个非常重要的分支。
在当今学术领域,生成文本摘要的方式主要有两种,1)提取,顾名思义,就是将文章中最关键的一句话选为文章summary。例如,李娜娜等。 [1] 提出了一种基于TextRank的自动摘要优化算法,利用词频统计找出文章的关键句,