网页采集器的自动识别算法(【每日一题】基于主题模型和命名实体识别的自动摘要方法)

优采云 发布时间: 2021-12-05 14:26

  网页采集器的自动识别算法(【每日一题】基于主题模型和命名实体识别的自动摘要方法)

  基于主题模型和命名实体识别的自动摘要方法 1 命名实体识别

  命名实体识别(NER)是信息提取、信息检索、意见挖掘和问答系统等自然语言处理任务中不可或缺的关键技术。它的主要任务是识别文本中代表命名实体的组成部分,包括人物姓名、地名、日期等进行分类,因此也称为命名实体识别和分类(NERC)。

  NER方法可以分为:基于规则的方法、基于统计的方法和综合方法。

  1. 基于规则的方法

  基于规则的方法是早期NER中常用的方法,需要手工构建有限的规则。

  基于规则的方法通常依赖于特定的语言特征、领域和文本样式,导致早期 NER 系统的生产周期长,可移植性差。不同领域的系统需要该领域的语言学家构建不同的规则。为了克服这些问题,研究人员尝试使用计算机来自动发现和生成规则。Collins 等人提出的 DLCoTrain 方法。是最具代表性的。该方法基于语料库在预定义的*敏*感*词*规则集上执行无监督训练和迭代生成规则。设置,并使用规则集对语料库中的命名实体进行分类。最终结果表明了该方法的有效性。一般来说,当提取的规则能够准确反映语言现象时,

  2.统计方法

  机器学习在自然语言领域的兴起,使得基于统计方法的NER研究成为热点。基于统计的方法只需要合适的模型即可在短时间内完*敏*感*词*工标注语料的训练,方便快捷,无需制定规则。. 基于统计方法开发的 NER 系统已迅速成为主流。这样的系统不仅具有更好的性能,而且具有良好的可移植性。跨域移植时,只需要训练一个新的语料库就可以使用该类。有许多机器学习方法可以应用于 NER,例如隐马尔可夫模型 (HMM)、支持向量机 (SVM)、条件随机场 (CRF) 和最大熵。(最大熵,ME)等。

  选择更好的特征表示可以有效提高命名实体识别的效果。因此,统计方法对特征选择有更高的要求。根据任务需求,从文本中选择需要的特征,并利用这些特征生成特征向量。具体命名实体的识别存在一定的困难。根据此类实体的特点,对训练语料中收录的语言信息进行统计分析,挖掘出有效特征。

  3.综合方法

  目前的NER系统采用综合的方法来识别命名实体,避免了单一方法的弊端。结合机器学习和人工知识,将规则知识501引入基于统计的学习方法中,达到过滤和剪枝的效果,从而减少状态搜索空间;同时,算法可以结合各种模型,进一步优化算法,提高命名实体识别的准确率。

  自NER提出以来,NER的发展基本经历了从规则到统计的转变。随后又掀起了新一波的深度学习浪潮,让NER在统计机器学习的道路上不断前行。尽管NER的研究成果遍地开花,但仍有一个问题需要解决,尤其是NER在某些特定领域。目前对NER的研究大多固定在调整经典模型、选择更多特征、扩大语料库规模的三角模型上。这值得研究人员反思。

  2 LDA主题模型

  LDA(Latent Dirichlet Allocation),即隐狄利克雷分布模型是一种无监督的文本主题生成模型。三层包括文本、主题和单词结构。该模型可以有效地从*敏*感*词*文档集和语料库中提取隐藏主题,并具有良好的降维能力、建模能力和可扩展性。LDA的图模型结构如图4.1所示。

  

  3 基于词的BiLSTM-CRF模型的构建

  该方法基于BiLSTM-CRF命名实体识别方法,利用Bi-directional Long Short-Term Memory(BiLSTM)学习句子的上下文信息,并充分考虑标签的依赖性,使得标注过程发生变化的有两个基于BiLSTM-CRF的中文命名实体识别方法:基于词的BiLSTM-CRF方法和基于词的BiLSTM-CRF方法。基于词的命名实体识别方法没有充分考虑文本中词的语义关系,会导致识别效果不佳;基于词的命名实体识别方法需要先对文本中的句子进行切分,分词的结果会直接影响到识别效果。为了克服使用单一模型的缺点,本文将有效地结合基于词和基于词的方法来提高单模型命名实体识别的准确性。结合词模型的命名实体识别标注框架如图4.2所示。该框架主要分为三部分:基于词的BiLSTM-CRF模型(记为CNER)、基于词的BiLSTM-CRF模型(记为WNER)以及结合CNER和WNER两个模型的最终分类器。图中4.2,BiLSTM-L代表BiLSTM层,Projection-L代表投影层,CRF-L代表CRF层,Char Embedding Layer和Word Embedding Layer代表基于词的向量映射层和词,分别。结合词模型的命名实体识别标注框架如图4.2所示。该框架主要分为三部分:基于词的BiLSTM-CRF模型(记为CNER)、基于词的BiLSTM-CRF模型(记为WNER)以及结合CNER和WNER两个模型的最终分类器。图中4.2,BiLSTM-L代表BiLSTM层,Projection-L代表投影层,CRF-L代表CRF层,Char Embedding Layer和Word Embedding Layer代表基于词的向量映射层和词,分别。结合词模型的命名实体识别标注框架如图4.2所示。该框架主要分为三部分:基于词的BiLSTM-CRF模型(记为CNER)、基于词的BiLSTM-CRF模型(记为WNER)以及结合CNER和WNER两个模型的最终分类器。图中4.2,BiLSTM-L代表BiLSTM层,Projection-L代表投影层,CRF-L代表CRF层,Char Embedding Layer和Word Embedding Layer代表基于词的向量映射层和词,分别。基于词的 BiLSTM-CRF 模型(记为 WNER)和结合 CNER 和 WNER 两个模型的最终分类器。图中4.2,BiLSTM-L代表BiLSTM层,Projection-L代表投影层,CRF-L代表CRF层,Char Embedding Layer和Word Embedding Layer代表基于词的向量映射层和词,分别。基于词的 BiLSTM-CRF 模型(记为 WNER)和结合 CNER 和 WNER 两个模型的最终分类器。图中4.2,BiLSTM-L代表BiLSTM层,Projection-L代表投影层,CRF-L代表CRF层,Char Embedding Layer和Word Embedding Layer代表基于词的向量映射层和词,分别。

  

  如图4.2所示,地理位置“中国江苏”作为输入发送到框架中。帧处理后,输出B-LOC和E-LOC的结果,其中B-LOC表示地理位置的开始部分,即“中国”。E-LOC表示去掉了“China”的结尾部分“Jiangsu”,显示了标注框架的有效性。

  本文基于模型融合的思想,以基于词的BiLSTM-CRF和基于词的BiLSTM-CRF为基础模型。为了避免过拟合,训练集分为两部分。第一部分用于训练基础模型。基础模型训练好后,将后半部分送到训练好的基础模型进行训练,得到词模型。词模型各个投影层的score向量,最后将操作后的score向量拼接起来,作为特征送入最终模型进行训练。词模型和本文中词模型的架构是一样的。每个模型分为4层:向量映射层、BiLSTM层、投影层和CRF层。其中,word模型的架构图如图4.3所示。

  

  4 结合BiLSTM-CRF模型和LDA主题模型的自动摘要4.1 算法思想

  命名实体识别 (NER) 在自然语言处理任务中起着重要作用。本文采用改进的BiLSTM-CRF模型对中文文本中的命名实体进行识别,从而获取文本中有用的人物信息、位置信息和事件。机构信息,在此基础上,调整抽取关键词时构建的TextRank词图中的词节点权重,使关键词抽取的准确率更高;文本摘要旨在准确反映文本主题,但现有的许多自动摘要算法没有考虑文本主题,导致摘要不理想。为了达到自动摘要更贴近文本主题的目的,本章将LDA主题模型引入到文本摘要生成过程中,

  4.2 算法实现

  文本摘要算法的流程图如下图所示:

  

  5 实验结果与分析5.1 实验数据与评价标准

  LCSTS数据集是目前国内公认的最大的中文数据集。数据集的内容是从新浪微博爬取过滤的标准化文本集。LCSTS数据集的构建为深入研究中文文本摘要奠定了基础。LCSTS数据集由哈尔滨工业大学于2015年发布,主要包括三部分:PARTI、PARTIⅡ、PARTIⅢ。其中PARTI是一个用于测试自动摘要模型的数据集,使用人工标注的分数,分数范围是1到5。分数越大,摘要和短文本的相关性越强,反之,分数越低。两者之间的相关性。为保证实验测试数据集的质量,本文选取得分为“4”和“5”的数据

  ROUGE评价方法在自动文本摘要的质量评价中得到了广泛的应用,因此本文采用Rouge指数对算法生成的摘要进行评价。本文选取Rouge-1、Rouge-2、Rouge-3、Rouge-L四个评价指标来评价算法生成的摘要的质量。

  5.2 对比实验及结果分析

  为了验证本节提出的算法,本文设置了不同算法的对比实验,并将本节方法与降维后的TF-IDF算法、现有优化算法iTextRank和DK- TextRank 基于 TextRank,以及本文中的 SW。-TextRank算法和Topic Model算法61设置对比实验。在LCSTS数据集上进行相应的对比实验,指定生成摘要的压缩率分别为10%和20%。

  在LCSTS数据集上进行了两组实验,压缩率为10%,压缩率为20%。

  压缩率为10%的实验结果如表4.1所示。

  

  其中,压缩率为20%的算法对比实验结果如表4.2所示。

  

  为了更直观的展示,将表中的实验结果集绘制成直方图,如下图所示。图4.5对应表4.1中的实验结果,即压缩率为10%的算法对比实验。

  

  下图4.6对应表4.2中的实验结果,即压缩率为20%的算法对比实验。

  

  5.3 生成汇总比较

  

  对比对照表4.3中的摘要,可以发现这种方法生成的摘要与标准摘要表达的摘要几乎相同,可以非常接近原创主题。虽然它们与标准摘要并不完全相同,但它们基本上不影响它们的表达。文本主题,说明LDA主题模型的引入是有效的;并且摘要的生成能够贴合原文的原创内容,而不会忽略原文中的关键信息,这从侧面说明了BiLSTM-CRF模型的有效性。一般来说,这种方法生成的摘要能较好地反映原文的主旨,语义连贯,易于理解。

  6 总结

  本章首先详细介绍了命名实体识别和LDA主题模型的相关概念:然后阐述了BiLSTM-CRF模型的研究现状,并在此基础上对模型进行了改进,将基于词和词的BiLSTM-CRF模型被介绍。CRF方法的有效组合,不仅克服了单一方法的缺点,而且提高了实体识别的准确率;然后,将优化后的 BiLSTM-CRF 模型和 LDA 主题模型引入到自动文本摘要过程中。优化提取过程,提高最终文本摘要的质量;最后通过实验验证了该方法的有效性。

  对于本站标注“来源:XXX”的文章/图片/视频等稿件,本站转载仅是为了传达更多信息,并不代表同意其观点或确认其内容的真实性. 如涉及作品内容、版权等问题,请联系本站,我们将尽快删除内容!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线