基于无监督的属性抽取方法-Ŀ¼
优采云 发布时间: 2021-01-31 17:03基于无监督的属性抽取方法-Ŀ¼
Ŀ¼
1.任务
1. 1.背景
1. 2.任务定义
1. 3.数据集
1. 4.评估标准
2.方法摘要
2. 1. 1.基于规则的广告位填充算法
2. 1. 2.基于聚类的属性提取方法
2. 1.基于
的无监督属性提取方法
2. 2.基于依赖关系的半监督时隙填充方法
2. 3.基于深度学习的序列标记方法
2. 4.基于元模式的属性提取方法
3.论文列表
3. 1.论文列表
4.相关链接
5.参考资源
1.任务
1. 1.背景
信息提取是将有价值的信息从非结构化和半结构化文本转换为结构化数据的过程。在提取过程中,根据提取的内容分为关系提取,事件提取和属性。提取等
1. 2.任务定义
属性提取:属性提取的目标是采集来自不同信息源的特定实体的属性信息。例如,角色实体的生日,性别,国籍等都是其属性信息。通过属性提取和获取多个数据源,我们可以通过丰富的属性信息相对完整地描述实体。
1. 3.数据集
当前,没有用于属性提取的统一评估数据集。通常,根据不同的应用场景提取不同的数据。
1. 4.评估标准
准确性
精度
f1
2.方法摘要
可分为四类:无监督提取方法,基于依赖关系的半监督时隙填充算法,基于深度学习的序列标记方法以及基于元模式的属性提取方法。
2. 1.基于
的无监督属性提取方法
2. 1. 1.基于规则的广告位填充算法
场景:以纯文本格式提取字符属性
论文:“汉字属性槽填充技术的研究与实现”
方法:使用手动规则为角色场景提取属性。由于手动构造规则模板很麻烦,因此可以使用Bootstrapping生成规则。
生成规则的步骤如下:
1、人工最高规则*敏*感*词*用作初始规则*敏*感*词*集Spatter,属性值集Sattr
2、使用规则*敏*感*词*集Spatter遍历并匹配文本中的属性值以获得候选属性集h
3、计算候选属性值集h中每个属性值的可行性,并将三个具有较高可信度的属性添加到*敏*感*词*属性值集Sattr中。如果收敛,则算法结束,否则,执行4
4、使用属性值集Sattr,遍历文本,并从匹配的属性值的上下文生成候选模板集h'。
5、计算候选模板集h'中每个候选模板的可信度,并将3个具有更高可信度的候选模板添加到规则*敏*感*词*集Spatter。如果Spatter收敛,则算法结束,否则转到步骤2
重复2-5次。
效果:通过自动生成规则进行提取的效果不佳,准确性较低。
2. 1. 2.基于聚类的属性提取方法
场景:产品属性提取
论文:“一种无监督的产品属性提取方法”
方法:
1、数据预处理:
找出限制性短语和名词短语。该论文认为,一般属性会出现在这样的词中。
2、将上一步中选择的名词聚类,并删除单词较少的类别
3、从类中提取属性:计算单字组,二元组和三字组,使用作者定义的属性得分函数进行计算,得分较高的是该属性。
2. 2.一种基于依赖关系的半监督时隙填充算法
场景:以纯文本格式提取字符属性
论文:“汉字属性槽填充技术的研究与实现”
方法:
依赖性:在自然语言处理中,使用单词之间的依赖性关系来描述语言结构的框架称为依赖性语法,也称为依赖性语法。使用从属语法的句法分析也是自然语言理解的重要技术之一。 (来自维基百科)。
使用此方法提取字符属性的步骤如下:
1、为每个属性生成相应的触发词汇
2、根据属性栏的特征,它标识句子中所有可能的候选属性。例如,出生地点的NER被标记为LOC。感觉就像设置一些规则来匹配某些属性。
3、通过句子的依存结构,它确认候选属性与主题实体(在这种情况下为字符)之间的关系。将依存关系树视为无向图,其顶点对应于pagerank算法中的网页,并使用pagerank算法来计算两个单词之间的句法相关性。
4、计算三元组的分数,取前三位之四,以查看动词是否出现在触发词中。
效果:在带有触发词的句子中效果更好,并且在描述灵活且对触发词的依赖较小的句子中,提取性能不佳。
2. 3.基于深度学习的序列标记方法
序列标记是一种更常用的属性提取方法,它将属性值视为较长的实体值,标记数据,并使用序列标记模型进行训练和提取。
场景:此方法可用于多种情况,例如字符属性提取,在线注释文本属性提取,从没有上下文信息的标题中提取产品属性等,只要有相应的注释数据,就可以使用提取方法。
论文:“基于弱监督的属性关系提取方法”,“非结构化文本的开放实体属性提取”,“用于实体属性提取的GRU + CRF方法”,“基于远程监督的中文文本个人属性提取”和LSTM”“用于产品属性提取的自举命名实体识别”等论文已使用这种方法进行提取
方法:将属性提取作为序列标记问题,标记需要一定的人工成本。在某些情况下,例如字符属性提取,您可以使用百科全书条目的结构化信息框(例如百度百科)进行标记。降低手工贴标签的成本;同时,您还可以在标记时使用Bootstrap方法从*敏*感*词*中查找更多潜在的属性值。在“用于产品属性提取的自举命名实体识别”一文中提到了该方法,该方法类似于Pakhomov 2002年提出的首字母扩展算法。该算法学习如何将首字母缩写与上下文的正确扩展相关联。作者认为,分类器在已知品牌的标签训练集上进行训练,以学习可以区分当前含义的上下文模式。序列注释中常用的模型:CRF模型,BI-GRU + CRF模型等神经网络模型。
效果:使用此方法进行属性提取的效果理想,但也有一定的局限性。由于内容的内容和属性值的形式多种多样,因此该方法不能用于具有较长单词的描述性属性。理想效果;同时,在某些情况下,无法使用百科全书条目数据进行反标,则大量的人工成本将花费在标签上,从而降低了可操作性。
2. 4.基于元模式的属性提取方法
场景:此方法可以不受限制地应用于多种情况
论文:“从*敏*感*词*文本语料库中发现MetaPAD元模式”
方法:该方法可以找到大量语料中的元模式。在属性提取的情况下,该方法可用于查找高质量的属性描述语句作为属性值。
3.论文列表
3. 1.论文列表
近年来需要增加属性提取论文