基于文本摘要和句子复写两个生成模型的改写方法介绍
优采云 发布时间: 2021-08-09 04:10基于文本摘要和句子复写两个生成模型的改写方法介绍
在自然语言处理中,另一个重要的应用领域是文本的自动书写。 关键词、关键短语、自动摘要提取都属于该领域的应用。但是,这些应用程序是从多到少生成的。这里我们介绍另一个应用,从少到多生成,包括句子复制、从关键词生成、主题文章或段落等。
基于关键词的自动文本生成模型
主要通过关键词抽取、同义词识别等技术实现。
IMG_4091(259).jpg
本节处理的场景是:从文本到文本的生成。该场景一般主要涉及文本摘要、句子压缩、文本复制、句子融合等文本处理技术。其中,本节主要涉及两种技术:文本摘要和句子重写。上面提到的文摘主要涉及:关键词抽取、词组抽取、句子抽取等。句子改写根据实现方式的不同,大致可以分为以下几种:
1.Rewrite 基于同义词的方法。这也是本节使用的方法。这种方法是词汇层面的,可以在很大程度上保证替换后的文本与原文一致。缺点会导致句子的流畅度降低。当然也可以结合隐马尔可夫模型来修正句子搭配,提高整体效果。
2.Rewrite 基于模板的方法。这也是本节使用的方法。该方法的基本思想是从大量采集的语料中统计归纳出一个固定的模板,系统根据输入语句与模板的匹配情况决定如何生成不同的表达
3.Rewrite 方法基于统计模型和语义分析生成模型。这种方法是根据语料库中的数据进行统计,得到大量的转换概率分布,然后根据已知的先验知识替换输入的语料库。这种方法的句子是根据分析结果生成的。从某种意义上说,生成的句子是在实分析的指导下实现的。因此,重写生成的句子可能有很好的句子结构,但它们依赖的语料库非常强大,因此需要手动标注大量数据。对于这些问题,新的深度学习技术可以解决部分问题。同时,深度学习结合知识图谱可以更好地利用人类知识,最大限度地减少训练样本的数据需求。
RNN模型实现文本自动生成
拼音生成汉字的场景模式与自动生成文本的场景模式相同。两者都从给定的文本信息生成其他文本信息。区别在于前者是生成当前元素对应的汉字,这里是生成当前元素对应的下一个汉字。
原理
2E3550569993E2FC3808AD981572EFF8.png
根据输入法的不同,文本生成可分为以下几种:
1.文本到文本生成。即输入是文本,输出也是文本。
2.图片转文字。即输入是图像,输出是文本。
3.数据到文本。即输入是数据,输出是文本。
4.其他。即输入形式不是以上三种,输出的也是文本。因为这类输入比较难概括,所以归为other。
二、和第三个最后发展得非常快。特别是随着深度学习和知识图谱等前沿技术的发展。基于图像生成文本描述的实验结果也在不断更新中。基于GAN(对抗神经网络)的图像文本生成技术已经实现了非常大的图谱,不仅可以基于图片生成非常好的描述,还可以基于文本输出生成对应的图片。
文本由数据生成,目前主要用于新闻写作领域。中文和英文都取得了长足的进步,美联社为英文代表,腾讯为中文代表。
从技术角度来看,目前主流的实现方式有两种:一种是基于符号的,以知识图谱为代表。这类方法使用了更多的人类先验知识,收录更多的文本处理语义成分。另一种是基于统计(connection),即在大量文本的基础上学习不同文本之间的组合规则,然后根据输入推断可能的组合方法作为输出。随着深度学习和知识图谱的结合,两者存在明显的收敛现象,应该是实现未来技术突破的重要节点。