解决方案:「自然语言处理」使用自然语言处理的智能文档分析
优采云 发布时间: 2022-11-28 21:21解决方案:「自然语言处理」使用自然语言处理的智能文档分析
什么是智能文档分析?
智能文档分析 (IDA) 是指使用自然语言处理 (NLP) 和机器学习从非结构化数据(文本文档、社交媒体帖子、电子邮件、图像等)中获取洞察力。由于 80% 的企业数据是非结构化数据,IDA 可以跨行业和业务职能部门带来实实在在的好处,例如改进合规性和风险管理、提高内部运营效率以及增强业务流程。
在这篇博客中,我将描述 IDA 中使用的主要 NLP 技术,并提供各种业务用例的示例。我还将讨论开始您的第一个 IDA 项目时的一些关键考虑因素。
智能文档分析技术
以下是 7 种常见的 IDA 技术。将提供示例用例来解释每种技术。
1. 命名实体识别
命名实体识别识别文本中提到的命名实体,并将它们分类为预定义的类别,例如人名、组织、位置、时间表达式、货币值等。执行命名实体识别的方法有多种:
命名实体识别是本博客中讨论的许多其他 RDA 技术的关键预处理技术。其他命名实体识别用例的示例包括:
2. 情感分析
情感分析对新闻报道、社交媒体内容、评论等文本中表达的观点进行识别和分类。最简单的形式是,它可以将情感分为正面和负面两类;但它也可以量化情绪(例如 -1 到 +1),或在更细粒度的级别(例如非常消极、消极、中性、积极、非常积极)对其进行分类。
与许多 NLP 技术一样,情感分析需要能够处理语言的复杂性。例如:
情绪分析通常用于分析与公司或其竞争对手相关的社交媒体帖子。它可以成为一个强大的工具:
3.文本相似度
文本相似度计算句子、段落和文档之间的相似度。
为了计算两个条目之间的相似度,必须首先将文本转换为表示文本的 n 维向量。该向量可能收录
文档中的关键字和实体,或内容中表示的主题的表示。矢量和文档之间的相似性可以通过余弦相似性等技术来衡量。
文本相似性可用于检测文档或文档部分中的重复项和近似重复项。这里有两个例子:
" />
4.文本分类
文本分类用于根据文本内容将文本项分配到一个或多个类别。它有两个维度:
一般来说,类别和标签的数量越少,预期的准确度就越高。
文本分类将使用文档中的单词、实体和短语来预测类别。它还可以考虑其他特征,例如文档中收录
的任何标题、元数据或图像。
文本分类的一个示例用例是邮件或电子邮件等文档的自动路由。文本分类用于确定应将文档发送到的队列,以供适当的专家团队处理,从而节省时间和资源(例如,法律、营销、财务等)。
文本分类也可以应用于文档的部分(例如句子或段落),例如,确定信件的哪些部分进行了投诉,以及投诉的类型。
5.信息提取
信息抽取从非结构化文本中抽取结构化信息。
一个示例用例是识别信件的发件人。识别的主要方式是发件人的参考号、*敏*感*词*号或会员号。如果未找到,则回退可能是发件人的姓名、邮政编码和出生日期。每条信息都可以通过命名实体识别来识别,但这本身是不够的,因为可能会找到多个实例。信息抽取依赖于实体识别。对实体上下文的理解有助于确定哪个是正确答案。例如,一封信可能收录
多个日期和邮政编码,因此需要确定哪个是寄件人的出生日期,哪个是寄件人的邮政编码。
6. 关系抽取
关系抽取抽取两个或多个实体之间的语义关系。与信息抽取类似,关系抽取依赖于命名实体识别,但不同的是它特别关注实体之间的关系类型。关系抽取可以用来进行信息抽取。
一些 NLP 包和服务提供开箱即用的模型来提取诸如“雇员”、“已婚”和“出生地”等关系。与命名实体识别一样,可以通过训练特定的机器学习模型来提取自定义关系类型。
关系提取可用于处理非结构化文档以识别具体关系,然后将其用于填充知识图谱。
例如,该技术可以通过处理非结构化医疗文档来提取疾病、症状、药物等之间的关系。
七、概述
摘要缩短文本以创建要点的连贯摘要。文本摘要有两种不同的方法:
文本摘要可用于使人们能够快速消化大量文档的内容,而无需完全阅读它们。这方面的一个例子是新闻提要或科学出版物,它们通常会生成大量文档。
智能文档分析任务的复杂性
" />
机器学习在非结构化文本上比在结构化数据上复杂得多,因此在分析文本文档时达到或超过人类水平的性能要困难得多。
1. 语言复杂度
由于语言收录
的变化、歧义、上下文和关系,人类需要很多年才能理解语言。我们可以用多种方式表达相同的想法。我们根据作者和读者群使用不同的风格,并选择使用同义词来增加兴趣并避免重复。RDA 技术必须能够理解不同的风格、歧义和词关系以获得准确的洞察力。
IDA 需要理解通用语言和特定领域的术语。处理特定领域术语的一种方法是使用自定义词典或构建用于实体提取、关系提取等的自定义机器学习模型。
将通用语言和特定领域术语相结合的另一种方法是迁移学习。这需要一个已经在大量通用文本上训练过的现有神经网络,然后添加额外的层并使用少量特定于问题的内容来训练组合模型。现有的神经网络类似于人类在学校开发的年代。额外的层类似于一个人离开学校并开始工作时发生的领域或特定于任务的学习。
2.准确性
RDA 技术的准确性取决于所用语言的多样性、风格和复杂性。它还可能取决于:
NLP-progress 是一个跟踪最先进模型在最常见 NLP 任务上的准确性的网站。这为可以达到的准确度水平提供了有用的指南。不过,判断 IDA 是否会产生准确结果的最佳指南是问问自己“人类做这件事有多容易?” “如果一个人无需多年的训练任务就能学会准确地完成这项工作,那么 IDA 就有可能通过加快流程、保持一致性或减少体力劳动来带来好处。”
您如何处理智能文档分析项目?
IDA 项目可以通过以下两种方式之一集成到企业中:
使用的方法应取决于 IDA 所达到的准确性和做出错误决策的成本。如果错误决策的成本很高,请考虑从手动循环开始,直到准确度足够高。
IDA 项目最好采用迭代方式 - 从概念验证开始,以确定该方法是否可行,如果可行,所达到的准确性是否表明使用了自动化或人为参与。然后迭代增加复杂性,直到估计的工作量不能证明预期的收益。
对于您的第一个 IDA 项目,请考虑以下步骤:
此过程将使您熟悉这些技术,并让您的业务发起人在处理具有更高收益的更复杂的用例之前获得对它们的信心。
通过周密的规划和实施策略,您的组织可以利用上面讨论的 NLP 和机器学习技术来构建 IDA 应用程序以改善业务成果。
本文:
讨论:请加入知识星球【首席架构师智库】或小号【jiagoushi_pro】
(此处已添加圈卡,请前往今日头条客户端查看)
解决方案:OCR完美扫描识别*敏*感*词**敏*感*词*
一、*敏*感*词*扫描识别系统定义
OPSKY Express客票扫描识别系统(以下简称*敏*感*词*扫描识别系统)是结合高性能扫描仪和OCR识别技术,软硬件一体化的系统。
*敏*感*词*扫描识别系统利用扫描仪完美捕捉*敏*感*词*图像(JPG/TIFF/BMP格式),并同步进行图像处理,利用OCR识别技术识别*敏*感*词*图像上的关键信息,生成TXT文本和XML格式文件同步。*敏*感*词*信息的采集
。扫描识别对象包括*敏*感*词*专用*敏*感*词*、*敏*感*词*普通*敏*感*词*、*敏*感*词*销售统一*敏*感*词*等。目前,*敏*感*词*扫描识别系统已成功应用于企业财务票据查验系统和机构以及汽车销售行业的DMS管理系统。
2、*敏*感*词*扫码识别系统的继承
1、高性能扫描仪,目前系统配备三种扫描仪:L2230、L7280+、L7300+;
2、*敏*感*词*扫描识别系统智能图像处理功能:倾斜校正、原尺寸裁切、去底色、旋转、去白页、加框等;
" />
3、*敏*感*词*扫描识别系统采用清华TH-OCR识别内核,可OCR识别多种格式*敏*感*词*;
4、*敏*感*词*扫描识别系统配备智能*敏*感*词*模板编辑工具,可轻松自定义各种格式的*敏*感*词*识别模板;
5、*敏*感*词*扫描识别系统支持*敏*感*词*图像自动分类,系统可自动区分当前单据所属业务类型,实现自动归档;
6、*敏*感*词*扫描识别系统配备快速数据校对工具,支持横向字段校对和纵向收词校对两种方式;
三、发票扫描识别系统工作流程
1、使用智能票据模板编辑工具识别*敏*感*词*图像上的关键信息并划定区域,即自定义需要识别的格式化*敏*感*词*模板(系统内置常用*敏*感*词*识别模板);
" />
2、PC连接扫描仪后,打开*敏*感*词*扫描识别系统DEMO,一键扫描识别,通过扫描仪采集*敏*感*词*图像并同步完成OCR识别工作(支持导入图像识别);
3、*敏*感*词*扫描识别系统DEMO支持校对修改,结果自动保存到生成的TXT文本和XML格式文件中;
4、*敏*感*词*扫描识别系统集成开发
为实现上述*敏*感*词*扫描识别系统的强大功能,需要进行系统集成开发:
操作系统:Windows系列
API接口:以标准DLL(动态链接库)和OCX控件的形式提供,支持VB、VC、C#、
Delphi、PB、C/C++、Java等常用编程语言的调用;