助力语句变换:35W具象、43W同义、13W简称三大知识库对外开源

优采云 发布时间: 2020-08-23 03:17

  助力语句变换:35W具象、43W同义、13W简称三大知识库对外开源

  句子变换,是指按照给定英文短语,借助某种语言处理手段,扩展出一定数据规模的英文语句集合,是一个从1到N的过程,目的在于解决搜索(查询扩充)、分类(样本扩展)、抽取(数据回标)、推荐与生成(关联引导)等多个工业级应用任务。

  我们发觉,在处理以上几个任务的过程中,句子级别的操作,是以语句中的词为基本单位来实现的,即以词的更换、删除,语序和组合规则的重组等操作为基本手段。

  将词的这些操作根据进行有效整理和形式化,是一项重要的工作,我们在实际开发过程中,对该工作的成果进一步归类成“抽象知识”、“同义知识”、“简称知识”三大类知识库,并将其中的部份数据集开放至OpenKG,供你们下载使用。

  本期内容以开放的诗句变换为主题,对常见的语句变换操作典型应用场景、数据地平线开放的三大知识三元组概要,以及它们在实际语句变换中所能发挥的作用进行介绍。

  一、句子变换操作的典型应用场景

  句子变换在搜索(查询扩充)、分类(样本扩展)、抽取(数据回标)、推荐与生成(关联引导)等典型NLP传统任务中均有应用。具体彰显在基于短语标准化的舆情文本聚合,基于短语扩充的信息采集与推荐、基于短语变换的数据扩展和数据回标等三个方面。

  1、 基于短语标准化的舆情文本聚合

  文本去重是舆情剖析的一项重要任务,解决的方式包括基于标题的去重、基于文本全文的去重、基于文档摘要的去重、基于标题与文档元数据的去重等多种途径。

  处理速率和估算复杂度是去重过程中须要考虑的两个重要诱因,尤其是在项目工期紧且须要*敏*感*词*进行文本去重时,将特定文本进行代表内容的标准化和规范化处理成为了一个重要手段。

  

  图1-文本去重系统中的指纹构架图

  内容的标准化和规范化,指将一个来源内容生成一个惟一的md5指纹,指纹的值取决于标准后的结果。一般而言,常规的操作包括对内容进行停用词处理、短句语序统一重排等,也有进一步地在此基础上进行文本的构词标准化映射、句子简写、句子复写、句子翻译。此外,也有加入一些其他的信息,如文本的时间信息、作者信息等进行标准化融合。

  2、 基于短语扩充的信息采集与推荐

  定点搜索和采集同样也是舆情处理过程中的两个重要手段。定点搜索,指针对关键词或关键词组成的query进行扩充,是搜索和采集的后置操作:如监控“营业收入增长”这一节点时,考虑到目标文档中可能存在的叙述不一致,需要须要进行扩充,形成“营收上涨”、“营收增长”、“经营收入增长”等多个关键词。

  

  图2-基于同义知识库的诗句扩充

  基于短语扩充的关联推荐也是一个重要的应用。通过对原本给定的query,通过辨识出其中的关键信息,借助外部知识库,对关键信息集合中的元素进行替换,如获取具象关系实体、同级关系(同属一个抽象类)实体进行替换,得到“美元贬值”扩展成“*敏*感*词*贬值”和“货币贬值”等推荐结果。

  3、 基于短语变换的数据扩展与数据回标

  无论是分类任务还是抽取任务,都存在着样本不足、训练数据不够的问题,为此,数据扩展和数据回标是两个主要手段。其中,数据扩展主要包括熟语替换和回译等几种形式。

  词语替换,指在不修改语句涵义的情况下替换文本中出现的词组,实现方法包括基于同义词库的替换 、基于词嵌入替换、基于TF-IDF的词组替换等,基于TF-IDF的词组替换也常用于确定给定语句中须要替换的词句成份;借助回译进行数据提高也是一种方案,即借助机器翻译来释义文本,将这个新语句用作原创文本的扩展结果。

  

  图3-基于远程监督思想的数据回标

  远程监督思想下基于已有知识库的数据回标是获取*敏*感*词*标明数据的重要方式,其要求在给定知识三元组的情况下,在非结构化文本中进行回查,假设同时出现两个实体的诗句潜在地存在着实体关系。不过,这一操作在实际的处理过程中噪音会较大。因此,为了扩大候选召回,可利用外部知识库对两个实体进行扩充,同时可以引入实体之间的关系标记词以及标记词的扩充词作为增设条件提升准确率。

  二、句子变换中的开放知识三元组

  准确而*敏*感*词*的记录成语之间的同义、抽象、同义等关系的知识三元组,是完成以上三个应用任务的坚实基础,在OpenKG中,我们开源了积累的部份英文具象知识、中文同义知识、中文简称三元组数据集,供你们下载使用。下面是对该数据集的介绍:

  1、35万英文具象知识三元组

  1)地址 :

  

  图4-35万英文具象知识三元组详情截图

  2)样例与介绍

  该数据集开放了高质量的346,048条英文具象知识三元组知识库,来源于公开网路文本具象三元组挖掘、人工手工整理等多个渠道,覆盖商品、行业、动作、性状、名词性实体等多种类型。样例如下图所示:

  

  图5-35万英文具象知识示例截图

  该知识库可用于查询扩充、句子改写、句子相似度估算、句子推荐等多个应用场景。

  2、 43万英文同义知识三元组

  

  1) 地址:

  该数据集开放了43万英文同义知识三元组,来源于公开数据文本同义词挖掘、词典整理与人工修正等多个渠道。样例如下图所示:

  

  图7-43万英文同义知识示例截图

  该知识库可用于同义词扩充相关应用,如搜索扩充查询、句子相似度估算、数据提高等。

  3、 13万英文简称知识三元组

  地址:

  

  图8-13万英文简称知识详情截图

  2) 介绍与样例

  该数据集开放了136,081条英文简称知识三元组,涉及院校、商品名称、公司简称等多个领域,来自公开网路文本简称抽取、人工整理等多个渠道。样例如下图所示:

  

  图9-13万英文简称知识示例截图

  中文简称知识库,可用于简称抽取评测、实体链接、搜索查询扩充、句子改写等多个场景。

  三、总结

  句子级别的操作,是以短语中的词为基本单位来实现的,即以词的更换、删除,语序和组合规则重组等操作为基本手段。将词的这些操作根据进行有效整理以及形式化,是一项重要的工作,我们将这些形式化的成果进一步归类成“抽象知识”、“同义知识”、“简称知识”三大类知识库,并将其中的一部分数据集开放至OpenKG:

  346048条英文具象知识三元组知识库,可用于查询扩充、句子改写、句子相似度估算、句子推荐等多个应用场景;

  43万英文同义知识三元组,可用于同义词扩充相关应用,如搜索扩充查询、句子相似度估算、数据提高等场景;

  136,081条英文简称知识三元组,涉及院校、商品名称、公司简称等多个领域,可用于简称抽取评测、实体链接、搜索查询扩充、句子改写等多个场景。

  底层知识三元组,能够在语句变换中发挥重要作用,具体彰显在基于短语标准化的舆情文本聚合,给予语句扩充的信息采集与推荐、基于短语变换的数据扩展和数据回标等几个方面。

  我们觉得,底层知识库是自然语言处理的坚实基础,可在工业界各项算法的施行中发挥奠基性和落地性的支持。

  参考链接

  1、

  2、

  3、

  4、

  5、

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线