解读:第一章：智能文字识别新发展——深度学习的文本信息抽取

优采云发布时间: 2022-11-15 06:24

　　1.1 技术背景——什么是基于深度学习的文本信息抽取

　　信息抽取是将原创数据中收录的信息结构化为表状的组织形式。信息抽取系统的输入是原创数据，输出是固定格式的信息点，即从原创数据中提取有用的信息。信息抽取的主要任务是从原创数据中抽取各种信息点。然后将它们整合成一个统一的形式，方便后续的检索和比较。由于可以从自然语言中提取用户感兴趣的信息框架和事实信息，信息抽取被广泛应用于信息检索、问答系统、情感分析和文本挖掘等领域。随着深度学习在自然语言处理领域的多个方向取得巨大成功，循环神经网络（RNN）和卷积神经网络（CNN）也被应用于信息抽取研究领域，基于深度学习的信息抽取技术也应运而生。怀孕。

　　信息抽取的三大任务：

　　·命名实体识别（NER）

　　· 关系抽取（RE）

　　· 事件抽取（Event extraction，EE）

　　信息抽取技术的评价指标主要有：

　　对于特定字段的抽取结果，一般通过计算相应的精度（Precision）、召回率（Recall）和F1值来评价。相应的计算是：

　　精度：提取信息中正确预测信息的个数占所有提取信息个数的比值。

　　召回率（recall）：是抽取的正确预测信息与测试数据集中所有信息的比值。

　　F1 分数是精确率和召回率的调和平均值

　　其中，数据分为两类：测试集数据和预测结果数据。对一批测试数据进行预测，提取的结果一般可以分为四种：

　　（1）TP（true positive），本来是正类，预测结果是正类（正确预测为正类）。

　　(2) FP（false positive），本来是负类，预测结果是正类（错误预测为正类）。

　　(3)TN(true negative)，本来是负类，预测结果是负类（正确预测为负类）。

　　(4)FN(false negative)，本来是正类，预测结果是负类（错误预测为负类）。

　　1.1.1 基于深度学习的实体抽取

　　实体抽取即命名实体识别（Named Entity Recognition，简称NER），是指识别文本中具有特定含义的实体，主要包括名称、位置、组织、专有名词等。通常包括两部分：（1）实体边界识别；(2)确定实体类别(人名、地名、机构名称或其他)。NER是信息检索、问答、机器翻译等各种下游应用的重要预处理步骤。

　　早期的 NER 系统在设计特定领域的特征和规则时通过大量手动工作取得了良好的性能。近年来，通过非线性处理进行连续实值向量表示和语义合成的深度学习已应用于 NER 系统，产生了最先进的性能。

　　随着深度学习技术的发展，CNN、RNN、LSTM-CRF、GRU等方法被应用到NER领域。19年BERT出现后，BERT-BiLSTM-CRF模型成为NER领域最适合的模型。

　　中文NER已经发展了十多年，但由于汉字的一些特点，中文NER仍然比英文NER复杂得多。中文命名实体识别的难点主要存在于：

　　1.中文文本没有像英文文本中的空格那样明确标记单词的边界标记。命名实体识别的第一步是确定词的边界，即分词。

　　2、中文分词和命名实体识别相互影响。

　　3.除了英文定义的实体外，外文人名的翻译和地名的翻译是中文中存在的两种特殊类型的实体。

　　4.现代中文文本，尤其是网络中文文本，经常会中英文交替使用。此时，中文命名实体识别的任务也包括了英文命名实体的识别。

　　5、不同的命名实体具有不同的内部特征，不可能用一个统一的模型来描述实体的所有内部特征。

　　1.1.2 基于深度学习的关系抽取

　　关系抽取是信息抽取的一个重要子任务。关系抽取是通过对原创数据进行建模，从原创数据中自动提取实体对之间的语义关系，提取有效的语义关系。

　　关系抽取将文本中的非结构化信息转化为结构化信息存储在知识库中，为后续的智能检索和语义分析提供了一定的支持和帮助。研究人员利用关系抽取技术，从非结构化的自然语言文本中抽取统一格式的实体关系，方便海量数据的处理；被分析实体之间的语义关系与实体相关联，促进了知识数据库的自动化构建；对用户查询意图的理解和分析，提高了搜索引擎的检索效率等。综上所述，关系抽取技术不仅具有理论意义，而且具有非常广阔的应用前景。

　　基于深度学习的关系抽取分为有监督方法和远程有监督方法，有监督方法又可分为流水线和联合学习方法。在众多方法中，表现较好的方法有：PCNN+MLL、LSTM和基于PCNN的注意力机制方法。

　　与模式匹配和传统的机器学习方法相比，深度学习方法具有明显的优势。基于深度学习的方法可以自动学习神经网络模型中的特征，并结合低层特征形成更抽象的高层特征，用于寻找数据的分布式特征表示。传统方法提取的特征和精心设计的内核都使用了预先存在的 NLP 系统，导致各种下游模块的错误累积。深度学习的方法可以避免人工特征选择等步骤，减少和改善特征提取过程中误差积累的问题。

　　中文文本关系抽取起步较晚，中英文差异较大。建立中文语料库需要进行中文分词、词性标注、句法分析等预处理，处理过程中会出现很多错误，导致中文实体关系抽取效果稍差比英文关系抽取。因此，实体关系抽取在中文领域的研究颇具挑战性，具有三个特殊性：

　　1.中文单位词汇边界模糊，英文文本中缺乏空格等明确的分隔符，没有明显的词形转换特征，容易造成很多边界歧义，增加关系抽取的难度。

　　2. 中文触发词提取困难，数量过多。中文自然语言处理底层技术研究不够成熟，导致错误级联。例如在长句的句法分析中，ACE语料库中存在大量30个以上单词的长句，句法分析效果较差。此外，中文触发词数量过多，导致关系抽取的召回率较低。通过对语料库的分析发现，由于汉语词汇的多义性，对于同一类型的事件，汉语的触发词数量远大于英语。

　　3、汉语具有多义、句式复杂、表达灵活、遗漏多等特点。同一个词在不同领域有不同的含义，或者同一个语义可能有多种表达方式。此外，由于互联网的快速发展，网络文本中的文字描述更加个性化，很多词都有不同的含义。中文命名实体在不同语境下（如高富帅、黑天鹅等）被赋予了不同的含义，使得关系类型识别变得更加困难。

　　1.1.3 基于深度学习的事件抽取

　　在信息抽取（IE）中，事件作为一种特定的信息形式，是指在某个时间和地点发生的某件事的具体发生，涉及一个或多个参与者，通常可以描述为状态变化一般在句子层面。事件抽取任务旨在将此类事件信息从非结构化的纯文本中抽取成结构化的形式，主要描述“who, when, where, What(什么), why(为什么)”和“how(如何)”。应用，该任务方便人们检索事件信息和分析人们的行为，触发信息检索、推荐、智能问答、知识图谱构建等应用。

　　根据ACE2005评测会的描述，组成一个事件的元素包括：触发词（event trigger）、事件类型（event type）、论点（argument）和论点角色（argument role）。事件抽取任务可以分解为4个子任务：触发词识别、事件类型分类、论元识别和角色分类任务。其中，触发词识别和事件类型分类可以合并为一个事件识别任务。论点识别和角色分类可以组合成一个论点角色分类任务。事件识别决定了句子中每个词所属的事件类型，是一个基于词的多分类任务。角色分类任务是基于词对的多分类任务，

　　近年来表现较好的基于深度学习的事件抽取方法主要有：DMCNN（Event Extraction via Dynamic Multi-Pooling多池卷积神经网络）、JRNN（Joint Event Extraction via Recurrent Neural Networks）、PLMEE（Pre-训练有素的基于语言模型的事件提取器）等

　　与模式匹配和传统的机器学习方法相比，深度学习方法具有明显的优势：

　　1.减少对外部NLP工具的依赖，甚至不依赖NLP工具，建立端到端的体系

　　2. 使用词向量作为输入，收录更丰富的语义特征

　　3. 可以自动提取句子特征，避免了人工特征选择和设计的繁琐工作

　　4.学习更多抽象的数学特征，使数据有更好的特征表达，从而实现文本事件的有效提取

　　信息抽取技术经过多年的研究和开发，取得了丰硕的成果，但仍有许多挑战需要克服。和合信息认为，以下几点将是信息抽取技术发展的重要方向：

　　1.端到端模型，基于深度学习的端到端自主学习模型是一个值得研究和探索的方向

　　2. One-shot甚至零样本学习模型在满足训练标准的数据样本非常少的情况下仍然可以训练出高效的模型

　　3.迁移学习的能力，利用当前已有的模型完成新的文本理解任务或学习完全未见过的数据样本，有效地将知识从一个领域迁移到另一个领域。

　　参考：

　　Jing Li、Aixin Sun、Jianglei Han 和 Chenliang Li，“命名实体识别深度学习调查”，IEEE TRANSACTIONS ON Knowledge and Data Engineering，2020

　　Animashree Anandkumar，“命名实体识别的深度主动学习”，第二届 NLP 表征学习研讨会论文集，第 252-256 页，

　　Arya Roy“命名实体识别 (NER) 的最新趋势”，arXiv:2101.11420v1 [cs.CL] 2021 年 1 月 25 日

　　李冬梅、张扬、李东源、林丹琼。实体关系抽取方法综述[J]．计算机研究与发展, 2020,57(7)

　　Yanyao Shen、Hyokun Yun、Zachary C. Lipton、Yakov Kronrod 和

　　Shantanu Kumar，“关系提取的深度学习方法调查”，arXiv：1705.03645v1 [cs.CL] 2017 年 5 月 10 日

　　Qian Li、Jianxin Li、Jiawei Sheng、Shiyao Cui、Jia Wu、Yiming Hei、Hao Peng、Shu Guo、Lihong Wang、Amin Beheshti 和 Philip S，“事件提取的紧凑调查：方法和应用”，IEEE TRANSACTIONS ON神经网络和学习系统，卷。14，没有。2021 年 11 月 9 日

　　解读:泛目录、泛解析与泛标签

　　一个网站想要有多少排名，不仅取决于首页和文章的排名，还取决于这个网站的SEO技巧。今天Error Blog()分享的内容是“泛目录、泛分析、泛标签”。我希望能有所帮助。

　　1. 文章列表

　　pan-directory、pan-tag、tag、column、topic等页面基本属于文章列表页面，都使用搜索引擎对文章list关键词的排名标准给我们这些页面排名。那么评判标准是什么呢？

　　1.更新频率

　　文章列表更新越频繁越好。

　　2. 原创度数

　　文章列表可以是文章的聚合，但是如果有更复杂的组合会更好，而不是统一的组合，只是那个文章，组合无非是一个组合。如此多的排列和较少的文章相关性占主导地位。标题是一样的，标题下面的描述是一样的，图片也是一样的。其实多少组合不一定能带来多少排名，因为相似度太高，或者原创的度数不够。

　　3. 布局

　　文章列表的布局通常比较简单，左侧是文章类表，右侧是侧边栏，搜索引擎清晰地面向文章页面。

　　总结：文章listing 排名是相当不错的，尤其是那些更新比较频繁的文章listing 页面的排名可能比首页好。但这是基于很多观点。bug博客认为更新频率和原创度很重要。至于布局，可能在关键词上有点功夫，其他都还好。

　　二、二级域名

　　对于二级以上域名的泛目录解析，从根本上说，这些页面的布局更像是首页的布局，或者说一些SEOer的泛解析是通过使用类似的首页来完成的。那么评判标准是什么呢？

　　1. 相似性

　　既然是做一般性的分析，一定要考虑到这些二级域名页面之间并没有太多的相似之处。如果相似之处太多，可能会被降级，或者被搜索引擎识别为重复页面。这些页面没有任何权限。最明显的大概就是标题了，不要太连贯，这样不好。另一个例子是相同的布局。如果文章总是一样，那肯定是不友好的，所以很多人做泛解析和泛目录，但从来没有人说过泛家。

　　2.更新频率

　　任何一个网站都很难同时保证相似度和更新频率，尤其是泛解析站点，所以如何保证更新频率是泛解析站点关注的重点，如果不能保证页面发生变化，那么这个二级域名很可能被评估为低质量网站。

　　3. 布局

　　二级域名站给予的权重高于栏目。栏目基本是文章的列表，但是二级域名站基本是全新的完整的网站首页。搜索引擎自然会受到不同的对待。

　　3. 文章

　　很多文章的文章可能在前几名搜索引擎中排名，很多甚至比其他网站的首页排名还要好，这并不奇怪，谷歌搜索更是如此，因为网站首页对用户的帮助可能不如文章页面，而文章栏目等列表页面可能不如文章页面。

　　就文章而言，是什么让SEOer又爱又恨，爱是因为原创文章，对网站来说确实是很大的进步，讨厌是因为原创浪费时间，被别人带走排名比自己高。所以，优秀的 SEOer 基本理解采集文章并自动发布。那么评判标准是什么呢？

　　1. 时效性

　　时效性可以简单地认为是在文章中混入了一些热点新闻信息，或者一些最近的热点新闻或词汇。

　　2. 原创度数

　　网站所有文章都要求有一定程度的原创，一块原创都不需要，更不用说一块原创 .

　　3.质量

　　原创不代表高质量，每天很多纯原创的文章基本上可以认为是这个网站的劣质文章，除非是高质量投稿那些很厉害的用户网站。

　　石家庄SEO培训总结：文章是最基础的东西，文章好，网站文章排名好，文章排名好，网站专栏可能会更好，网站主页更有希望更好。文章有文章的形式，文章列表有文章列表的形式，主页有主页的外观。所有页面都可以看作文章，所有文章也可以看作是所有页面的基础，无论我们是优化文章页面，还是优化文章列表或标签或者主题，或者一般分析，记住这些不断的评判标准可能会让我们的网站更健康，而网站最健康的状态是所有页面都参与排名。

0

2022-11-15

文章句子采集软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解读:第一章：智能文字识别新发展——深度学习的文本信息抽取

0 个评论

发起人