文章句子采集软件(文章摘要提取的方法，将从抽取式摘要和生成式摘要 )

优采云发布时间: 2021-10-16 16:19

　　文章句子采集软件(文章摘要提取的方法，将从抽取式摘要和生成式摘要

)

　　本文文章主要介绍了从文章中提取抽象的方法。从抽取式抽象抽取和生成式抽象抽取两个方面介绍。

　　一、背景介绍

　　使用计算机处理大量文本以产生简洁精炼的内容的过程是文本摘要。人们可以通过阅读摘要来掌握课文的主要内容，既节省了时间，又提高了阅读效率。

　　自动摘要有两种主要方法：

　　二、抽取式摘要抽取

　　抽取法是基于这样一个假设，即文档的核心思想可以用文档中的一句话或几句话来概括。那么总结的任务就变成了找出文档中最重要的句子，这是一个排序问题。排序的方法有很多种：

　　1.TextRank架构介绍：

　　基本思想是利用文本句子之间的相似性来构建图结构，并使用谷歌的PageRank算法对句子进行排名。

　　一种。预处理：子句

　　分割得到的文本有两种可能。一种是使用句号或其他可以表示句尾的符号作为分隔符，另一种是使用逗号作为分隔符来获得句子。

　　湾句子向量：向量化

　　句子向量化的方法有很多种，这里就不一一介绍了。包括 Bag Of Words、TFIDF、LDA/LSI、SIF 模型、自编码训练，以及最近的 BERT、skip-thought 模型等。

　　C。句子相似度矩阵

　　对于n个句子，得到一个n*n大小的相似度矩阵。

　　d. 种类

　　使用相似矩阵构建句子图结构，并运行PageRank算法进行排序。如果不了解PageRank算法，可以简单理解为一种排序算法，比如Google如何从大量网页中选择重要的网页进行展示。

　　e. 输出 2，语料库 a.DUC

　　这个网站提供了一个文字总结比赛。2001年到2007年，在这个网站，2008年，改成了这个网站TAC。这里提供的数据集都是用来评估模型的小数据集。

　　b.千兆字

　　语料库很大，有950w左右的新闻文章。数据集以标题为摘要，即输出文本，以第一句为输入，即输入文本，属于单句摘要数据集。

　　c.CNN/每日邮报

　　这个语料库就是我们在机器阅读理解中使用的语料库，数据集是多句摘要。

　　d.*敏*感*词*中文短文本摘要数据集（LCSTS）

　　这是一个中文短文本摘要数据集，数据采集来自新浪微博。

　　三、生成总结

　　至此，本文的主要内容文章就结束了。这部分主要是想补充摘要的生成方法。到目前为止，大部分的生成方法都是基于seq2seq模型进行改进的，一般采用attention机制。下图为通用的seq2seq模型，更多生成式改进模型参考：自动汇总汇总

0

2021-10-16

文章句子采集软件

0 个评论

要回复文章请先登录或注册