关键词自动采集生成内容系统(基于特定领域提取摘要系统并应用基本的自动文本摘要)

优采云 发布时间: 2021-09-04 20:32

  关键词自动采集生成内容系统(基于特定领域提取摘要系统并应用基本的自动文本摘要)

  基金项目:国家科技支撑项目(编号:2006BAH02A12);国家863项目(编号:2006AA010101))文本抽象算法集成与实现(清华大学计算机科学与技术系,北京 100084)(清华大学信息工程学院 北京 100084) () 自动文本抽象算法集成系统实现 王会芳 张永兴春晓 张文科 杨继江 计算机科学技术,清华大学,北京 100084)(北京大学信息学院研究院) 100084) Abstract Automatic text summarization importantresearch topic textmining. 现有系统大多采用单一方法特定领域,其他领域不能。因此,论文研究了六种基本的表面级实体级自动提取算法,实现了抽象系统多知识集成,基本机器学习算法来源以上六种算法hms训练,交叉验证,最佳组合特征总结。我们使用内在评估方法实验结果系统。关键词自动文本摘要,特征组合,集成,表面级算法,实体级算法摘要自动文本摘要是文本中的一个重要研究课题采矿技术。

  现有的文本摘要系统大多采用单一的方法提取基于特定领域的摘要,无法应用于各个领域。因此,多种方法的组合将能够解决这个问题。本文在深入研究6种基础浅层和物理层自动摘要算法的基础上,实现了一个多知识源融合摘要系统,并应用基础机器学习算法对上述算法进行特征组合分类器训练。 , 交叉验证和测试,找到特征的最佳组合并形成总结。本文采用内部评价方法对系统进行分析评价。 关键词自动文本摘要、特征组合、融合、浅层算法、实体层算法在分类号TP311.5 后台自动文本摘要是指利用计算机自动从单个文档或一个文档中提取原创文档多篇文档的集合 用不到原文一半的长度对关键信息的正文中关键信息的文本内容进行解释和总结是非常有必要的。对自动摘要技术的研究是非常必要的:(1)要在海洋中找到你需要的信息,你不仅需要好的信息检索工具,还需要一个可以自动压缩和提炼信息的智能系统。(2)信息快速阅读的需要,人们需要了解某一领域的知识,往往需要查阅大量的资料,而一个好的摘要系统可以为读者提供文献的总结和精华,这是对读者快速了解文献内容很重要。(3)RSS 内容聚合的基础。

  Web2.0时代,个人用户成为信息发布的新媒体,利用RSS内容聚合技术可以方便用户快速、高效、低成本地获取感兴趣的信息。 RSS 是一种数据规范或标准。它以 XML 文件的形式呈现网站content 更新的摘要信息。它是用于共享新标题、摘要和其他内容的 XML 文件。因此,一个好的摘要算法可以提高来自多个数据源的 RSS 内容聚合的准确性。根据自动摘要的来源,自动摘要可分为提取性摘要和概括性摘要。系统主要采用6种抽象提取算法:词频、线索词、位置、标题、基于WordNet的词法链算法、基于潜在语义索引的关联网络算法。我们结合了六种算法的特点,通过对数据集的训练和验证,得出一个最优算法,形成一个总结。本文第二部分介绍了自动文本摘要的架构、算法和评估方法;第三部分介绍了我们系统的设计架构。第四节介绍各个功能模块。第五部分是总结。下面我主要详细介绍一下这个系统实现的基本技术。自动文本摘要介绍下面对通用自动文本摘要提取系统的一般架构、算法和评估方法进行一般介绍。 2.1 自动文本摘要系统的总体架构分析阶段主要由频率统计和短语或模式识别操作组成。对于每个文本单元,根据选择的特征类型(如句子位置、信号短语、词频或词频等)计算评价值。

  在信息转换阶段,对文本单元的分数进行加权叠加。在最后的摘要合成阶段,选取评价值最高的n个单元(n可以由文本压缩率决定)形成摘要。抽取式抽象方法虽然不需要生成阶段,但如果单纯抽取输出句子,可能会造成不连贯和不兼容。这时,需要一个“平滑”的过程来识别和纠正这种不兼容性。该方法最早由 Hirst 等人 (1997)) 2.2 句子抽取摘要算法 句子抽取摘要算法主要分为浅层分析、实体分析和语篇结构分析。早期的句子抽取技术是基于句子上面浅层统计特征的重要性评价;最近的提取方法应用更复杂的自动特征识别机器学习技术和使用自然语言来分析单词关联和文本结构。常用的提取自动摘要算法总结如图2所示: Extractive summarization algorithm2.3 自动文本摘要评价摘要的评价方法大致可以分为两类:一类称为内部评价(Intrinsic)方法,这与系统的目的有关,它直接分析摘要的质量来评估抽象系统。第二种叫做外部评价(Extrinsic)法,它是一种间接评价方法,对应系统的功能,抽象应用于一个特殊的任务,根据总结函数对任务进行改进来评价性能自动汇总系统。 2.3.1 内部评价法 内部评价法根据信息的覆盖面和准确度来评价摘要的质量。

  信息抽取就是抽取原文的关键点,在召回率(Recall)和准确率(Precision)指标上与人工抽取的内容进行比较。人工和系统同时提取的句子数/(人工和系统)提取的句子数+系统提取但系统未提取的句子数)召回率 人工和系统提取的句子数系统/(手册和系统提取的句子数+手册提取但系统未提取的句子数)2.3.1 外部评价方法 外部评价方法与摘要的目的,即将摘要应用于特定的任务,根据抽象系统对任务的促进效果来评价抽象系统的性能。外部评价法通常在特定任务中对抽象系统进行评价,因此与内部评价法相比主观性较小,易于对多个抽象系统进行评价。系统设计3.1 系统架构设计 自动抽象系统WESTSummarizer是基于“十一五”国家科技支撑计划开发的实验系统。系统架构如图3所示。 自动文本摘要的实现过程:从用户提供的数据集中提取的数据首先要经过预处理、文本表示分析、特征提取、各功能模块的特征组合,然后算法组件从算法组件库中选取或组合形成汇总。 3.2 系统实现的层次结构 本系统具有表现层(JSP+JSTL+JavaScript+CSS)、业务层(Struts)和组件层(Mule)三层结构。

  系统各功能模块4.1 文本预处理 WESTSummarize自动摘要的文本预处理过程主要包括文本的格式分析和文本的自然语言处理。文本预处理过程完成对用户提供的文件中文本内容的提取,建立全文、段落、句子的Lucene索引文件。 4.1.1 文本格式解析 文本格式解析主要是解析常用文本格式的文本内容,进行文本摘要。本系统可以解析的文件格式包括txt、rtf、pdf、MSword、html、xml。具体的实现过程是构建一个可以处理多种文件格式的索引器来处理多种不同的文本格式。文本格式分析 第三方类库 文档格式分析工具 TXT RTFJava 内置库 PDF PDFBox MSWord POI HTML JTidy XML Dom4j 4.1.2 文本自然语言处理 文本的自然语言处理包括词法分析和句子切分以及分割的过程。词法分析:对于英语等屈折语言,词法分析主要是基于Martin Porter博士提出的Porter Stemming算法对词干进行切分;对于中文分词,使用“查字典”的方法,即我们从左到右扫描一个句子,遇到时标记字典中的词,遇到复合词时找出最长的匹配,并进行拆分当我们遇到无法识别的单词时,将其转换为单个字符的单词。

  (2)句,段落切分句的切分使用J2SE6.0中的BreakIterator类来实现寻找文本边界的方法。段落切分是基于文本中的换行符。通过文本的工作预处理,我们最终将文件解析成lucene索引文件以获得更高的随机访问效率 4.2 DUC数据集预处理 WESTSummarizer系统使用的训练和测试数据集来自DUC(Document Understanding Conference)2001(TIPSTER, TREC) 提供了297个单文档原文和相应的147个手工摘要及相关配套软件,以DUC数据为例:DUC提供的数据是人工标注的结构化文本,首先使用perl中的正则表达式函数将DUC数据进行组织转换成xml文档,主要元素包括:文档ID文档标题使用perl扩展DUC提供的软件接口,根据需要提取人工摘要人工摘要的句子索引,并以xml文件的形式存储。主要元素包括文档ID、文档标题、摘要。通过xml文本格式分析、英文词法分析、句子段落切分的操作,最终得到lucene索引文件。主要字段包括:文档标题、文档作者ID

  ,句子ID。 4.3 算法实现与讨论 本系统实现了基本抽取式自动摘要算法中的四个浅层算法组件:词频算法(keyword)、线索词算法(cuephrase)、位置算法(position)和标题算法(title)由一种实体层算法组成:词法链算法(lexicalchain)和关联网络算法(内聚图)。对文章的词频、标题、位置、线索词等进行统计分析的浅层算法具有实现容易、处理速度快、不受领域限制等优点,但该方法基于正文表面 缺乏对正文内容的深入分析,难以保证生成的摘要的逻辑连贯性,制约了摘要质量的提升。浅层算法这里就不详细介绍了。主要介绍了实体级算法,利用自然语言分析词关联和文本结构提取关键句子形成摘要:词汇链[12]和关联网络[13][14][15]4.3. 1 词汇链分析采用实体分析技术,分析词之间的聚类关系,提供有关文本结构和主题的重要线索。词汇聚类是在文本中形成相关词链的过程,使这些相关词保持意义的连贯性。它不仅存在于词对之间,也存在于围绕文本中某个主题的许多相关词之间。这些相关词的序列称为词汇链。

  词汇链是由词与词之间的语义关系引起的一种内聚。它与文本的结构有对应关系。它提供了有关文本结构和主题的重要线索,也为解释单词、概念和句子提供了语义环境。 4.3.2 关联网络如果我们把一个语言单元的每个子单元看作一个节点,在两个语义相连的子单元之间画一条边,那么我们就有了一个关联网络。将文本视为句子网络。借鉴信息检索技术,通过词频统计得到的关键词,为每个句子赋予一个特征。根据相似度度量函数确定两个句子的相关强度。给定一个关联强度阈值,通过这个阈值判断两个句子之间是否存在语义关联,将与多个句子有关联的中心句作为摘要的候选内容。 4.3.2.1 潜在语义索引Am*n term,第n列代表文本单元(句子或段落)。在A’中,每一列描述一个句子的语义表示,每一行描述一个词的语义表示。 4.3.2.2 相似度分析主要包括Dice、Jaccard、Cosine和Overlap四个系数[13] 机器学习和特征组合单一的自动摘要算法往往得不到理想的摘要结果,所以WESTSummarizer使用机器学习算法结合单一汇总算法结果的特征,利用人工汇总的数据进行训练,从而获得最佳组合系数。

  5.1 常用的机器学习算法将文本中的句子根据是否在摘要中分为两类,将文本自动摘要的问题转化为分类问题,扩展了六维任意二维数据。如图4所示,根据图中的类别识别取其中一个二维数据,可以看出在单维中,没有明显的类别边界,因此很难得到更有效的分类具有单个特征的分类结果。尝试使用机器学习算法结合多维特征来优化分类结果。数据的二维表示记录了单个算法的评分结果,并对每个文章:实向量的每个特征的数据进行归一化处理。文本被抽象为归一化实向量族并存储为 rff 数据格式。添加一个boolean class 属性来指示它是否是一个摘要句。机器学习过程如图6所示,我们在WEKA数据挖掘平台上选取了一些常用的分类器进行机器学习训练、交叉验证和测试。 5.2 自动汇总结果的评价和展示 WESTummarizer 系统采用内部评价的方法,比较自动汇总和人工汇总结果的统计准确率、召回率和F-Measure。我们对DUC2001的147篇原文-人工摘要新闻稿件进行自动汇总评估。系统汇总结果见表二、三。机器学习算法的对比评估结果摘自ACL 2001 WESTSummarizer系统。 WESTSummarizer 系统的设计和实现过程比较简单。通过与已有研究结果的对比,可以得出该系统单一算法的结果较好,机器学习的结果与预期结果存在一定差距。

  分析的主要原因如下:(1)Lack自然语言处理。我对自然语言处理模块不是很熟悉,由于项目的成本和速度要求。我只使用了自然语言少算法所必需的处理。:英语形态分析、中文分词、WordNet svd分解语义库等,缺少词性分析、词义消歧、命名实体识别、参考解析等。这是评价我们系统和其他自动汇总系统的汇总结果差距的主要原因之一。(2)多条文章数据混杂在一起,没有进行有效合理的归一化处理,两者之间存在冲突数据,影响分类结果。总之,WESTSummarizer系统需要进一步完善。分析和修改系统的评估结果(单一特征)。准确性(precision) Recall (recall) F-Measure Random 0.20014556 0.2425044 0.21929823 词频0.23153085 0.2680776 0.2484675@@1776cms176k6k6 18164705位置0. 344775 0. 39858907 0. 36973414标题0. 3105543 0. 36067018 0. 3337413词汇链0. 2521097 0. 21075837 0. 22958693相关的网络0. 18832523 0. 23897707 0.21064904 关联网络(深度优先) 0.19664101 0.24779542 0.21927428 总结互联网的发展,信息的飞速增长推动了文采领域的发展。

  自动文本摘要,即利用计算机从单个文档或多个文档的集合中自动提取收录原创文档中关键信息的文本,并以文本的形式对文本内容进行解释和概括少于原文一半长度的介绍。重要的研究课题。本文研究总结了自动文本摘要的研究现状,设计并实现了基于句子提取的文本自动摘要获取系统WESTSummarizer,并实现了6种基本的浅层和实体层自动文本提取算法:词频算法、线索词算法、定位算法、标题算法、基于WordNet的词汇链算法、基于潜在语义索引的关联网络算法,以及应用基本机器学习算法组合和优化基本特征的过程。 WESTSummarizer 系统在内部评价方法中仅采用理想摘要与自动摘要比较的统计方法,不涉及外部评价方法。希望以后能有更多的相关研究。系统评价结果(多特征组合) NaiveBayes 0.37124463 0.37179741 0.23489477 线性回归 0.51700680 0.27547169 0.666@34079407 神经网络k -NN 分类器 0.36768149 0.35590863 0.21896792 *敏*感*词*.5 0.52564102 0.14071499 0.075576​​03 @41466S 1R 分类器@1466466S 3664k66S 分类器@1466264k66S0. 45769230 0. 21817279 0. 18784530滤波器0. 36785714 0. 10228401 0. 16006216套袋0. 375 0. 17279046 0. 23657375推进0. 34912718 0. 139026817 0. 19886363自动文本摘要 SUMMARIST 系统。马里兰州巴尔的摩会议录:199 年 10 月 13 日至 15 日8. 马里兰州巴尔的摩:协会计算语言学 1996. 生成健康教育文件个体患者。 Proceedings 6th International Conference UserModeling, UM97 Wien: SpringerWienNewYork, 1997: 108-118. Improvementsummaries revising them。 Proceedings 37thannual meeting ComputationalLinguistics ComputationalLinguistics,1999:558-565.MayburyMT。推进自动文本摘要:麻省理工学院出版社 1999. SparckJones GalliersJR。评估自然语言处理系统(分析评论)。讲座笔记计算机科学。改进总结修改它们。 Proceedings 37thannual meeting ComputationalLinguistics Computation, 1999:558 -565. Action.Action series Manning Publications Co, Greenwich, CT。 2004 年麦吉尔简介 ModernInformation Retrieval:McGraw-Hill, Inc. New York, NY, USA 1986.PaiceCD。构建文献文摘计算机:技术前景。信息处理国际学报, 1990, 26(1):171-186. 10. 陆玉昌. 向量空间方法中词权函数的分析与构建. 计算机研究与发展 10, 2002. 11.冯帆.Web文本特征选择算法研究.

  Computer Application Research 1001- 3695 (2005) 07- 0036- 03. 12. 查看全文. 基于多知识源融合的自动摘要系统的研究与实现. 1 研究摘要系统基于多知识源融合。1 3. Mitra AutomaticText Summarization ParagraphExtraction. Compare, 22215(22215): 26 14. Salton Automatictext structuring summarization.InformationProcessing Management,1997 Mar,33(2):193-20) 5.Mani I,Bloedorn Multi-documentSummarization GraphSearch Matching.Arxiv preprint cmp-lg/9712004. 1997 王慧芳:女,1978,学生,研究方向:自然语言处理,多数据源内容聚合技术。邢春晓:男,1967,研究员,研究方向:数据库与数据仓库、海量数字媒体管理、软件工程、网络存储、数字图书馆、档案馆、电子政务关键技术研究等

  张勇:男,1873,副研究员,研究方向:海量数字资源管理与服务、*敏*感*词*并发事务*敏*感*词*,1984,学生,研究方向:海量数字资源管理与服务杨继江:男,1967年,副研究员,研究领域:企业资源规划(ERP)、供应链管理(SCM)、业务流程管理、电子政务理论与技术应用。学校名称:清华大学 姓名:王慧芳 *敏*感*词*(座机和手机):;详细邮寄地址:清华大学网络与软件研究中心 fit1-311. 邮箱:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线