完整解决方案:OCR识别技术-智能合同识别比对提取关键信息

优采云 发布时间: 2022-10-29 15:23

  完整解决方案:OCR识别技术-智能合同识别比对提取关键信息

  1 背景

  合同管理包括合同审查、签署和归档等几个重要流程。目前,合同管理处于人工管理与系统管理相结合的阶段。虽然很多机构都实施了合同管理系统,但目前的合同管理系统只有数据存储和文档。对于存储和检索的功能,最耗费人力的合同审查和合同备案和录入仍然是人工完成的。合同管理的人工成本长期居高不下,但管理效率无法提高。合同重复审核和合同录入归档是合同管理的两大痛点。基于OCR文本识别技术和NLP自然语言理解技术的合同比对技术和合同信息提取技术,将人工完成的工作转化为可以自动完成的计算机。这大大提高了合同管理的效率。

  合同自动比对技术对合同签订过程中出现的两个版本进行字符层面的对比,从而自动发现并标注差异,审计人员只需确认差异,差异发现率可达100 %。,从而大大降低了文本审查的难度,提高了审查的效率;

  合同自动提取技术,应用于合同备案和录入阶段,可以自动提取不同版式的同类型合同的关键信息,自动填入合同管理系统,甚至与系统数据自动匹配比对,从而可以自动提取合同。流媒体过程是完全数字化和自动化的。

  自动合约比较技术和自动合约抽取技术是确定性技术。将密集的人力劳动交给计算机处理和执行,从而解放了司法人员和业务人员,协助他们完成具有更大价值的后续工作,节省了企业的劳动力。成本也提高了工作效率;未来,随着人工智能技术的不断发展和应用的成熟,还可以在合同管理过程中引入智能合约编写、智能审核等技术,更大程度地降低合同管理成本。组织运作的效率。

  2 合约比价 2.1 合约比价产品概述

  合约智能识别比对技术利用机器视觉智能识别输入的两份合约,并自动标记前后合约的差异,实现计算机代替人工目视比对,解决纯人工带来的问题合同比对工作中的审查和大合同量。高时间成本、高劳动力成本和高风险问题。

  人工比对:15分钟/100页,准确率不稳定,取决于审稿人的业务素养、体力、精神状态和工作量;

  智能比对:3分钟/100页,系统自动比对,准确率稳定,100%发现差异,只需人工确认。

  文字对比差异效果示例界面

  

  2.2 合约比较功能

  1)深度学习识别核心技术

  基于识别率领先的深度学习全文识别技术,结合独创的比对引擎,整行文字识别率达到99.9%,差异检测率100%,误判率小于5 %。

  2) 支持合同格式:pdf、doc、docx、wps、xls等。

  兼容所有文件格式,为达到更好的对比效果,可根据企业要求调整合同。

  3) 支持表格和文字对比

  精确到单元格内容、文本和文本行之间的比较。

  4) 支持与OA、业务系统、合同管理系统集成

  提供识别+比对开发包、后台管理、前端比对页面,简化集成工作。

  5) 支持合同修订比较

  删除评论内容,自动转换为接受对文档的所有修改,无需用户手动确认字词。

  

  6) 支持水印合约对比

  带水印的合约会对识别造成一定的干扰。为此,我司独创了去水印技术,很好的解决了带水印合约的对比问题。

  7) 支持跨页合约比对

  合同的每一页都有行定位箭头,最终文档第一行的文本信息将与打印文档中收录的文本信息一起搜索定位,方便用户查看。

  8) 差级高亮定位

  如果合同被修改、添加或删除,这些差异将突出显示以定位文本信息。并且合同的每一页都会通知它收录几个错误。此页面 0 错误不需要用户返回此页面。

  9) 印章和签名检测

  判断使用合同是否盖章、签字确认、合规检查

  10) 按差异类型自动生成合约对比报告

  一键生成对比报告,点击对比报告页面的错误项,可以直接定位到错误所在的对比页面,方便二次审核。

  重点说明:按键写入表格的应用(保存seo查关键词的排名)

  本期文章讲两个知识点,一是把数据写入表。二是通过api数据接口获取关键词在百度上的排名。

  首先,我们来谈谈如何将数据写入表中。用过采集软件的朋友可能接触过这样一种文件格式(.csv),百度百科中描述为“逗号分隔值”,但从文件图标来看,是一样的作为excel表格,也就是说它也支持办公软件的打开。

  通过它的名字“逗号分隔值”,我们其实可以猜到它可以用逗号分隔,这也是它最大的特点。具体来说,当书面内容中有英文逗号时,会用逗号隔开,放入表格中不同的“栏目”。

  比如写的内容是qwe,sdf

  看到的效果如下~

  当然,如果这个csv文件用记事本打开,还是会显示qwe,sdf

  它的用途是什么?

  对比上面两张图,记事本显示的是一行内容,而csv通过表格工具打开后显示的是一行两列。这样,如果写入多种类型的数据,就可以分列显示。后期需要进行数据处理,直接转换成表格的xls格式,非常方便。

  第二个知识点是通过api接口获取关键词在百度搜索中的排名。

  这里是站长工具的api数据接口,

  这个界面每天有500个免费查询,对于普通的网站 SEO查询来说已经足够了。对于做网站优化和网络推广的朋友,还是有一些用处的。

  先看一下它的 API 文档:

  对于api对接,常用的方法有get和post。在这种情况下,两者都支持,因此我们对同时支持的使用相对简单的 get 方法。

  接下来我们开始具体操作,新建一个csv文件,像新建txt一样直接使用file.write命令。

  暗淡路径="/sdcard/pictures/ranking.csv"

  

  文件。写入(路径,“”)

  生成csv后,下一步就是连接api接口。首先,申请一把钥匙。这需要注册。如果你只是为了测试,直接使用我的:

  “c40fa0ee91ea4e2f8fbf3”

  每天500的免费额度很可能会被很多人使用,过段时间就会用完。建议您自行申请。如果无法使用测试,这可能是原因。

  我们以百度搜索关键词“按钮精灵安卓版教程”为例,看看我在简书上发布文章的页面排名。为了有数据,这里特意找了一个排名页面作为例子。

  暗淡路径="/sdcard/pictures/ranking.csv"

  暗路径 1="/sdcard/pictures/unranked.csv"

  文件。写入(路径,“”)

  file.Write(path1, "")

  导入“山海.lua”

  暗键="c40fa0ee91ea4e2f8fbf3"

  暗域=“”

  Dim 关键词="按钮向导 Android 教程"

  暗 m=ShanHai.GetHttp(""&key&"&domainName="&域名&"&keyword="&关键词)

  TracePrint m

  暗淡 a=Encode.JsonToTable(m)

  If a["Reason"] = "Success" Then

  如果 UBOUND(a["Result"]["Ranks"]) > -1 那么

  如果 InStr(1, a["Result"]["Ranks"][1]["RankStr"], "1-")>0 那么

  Dim x=split(a["Result"]["Ranks"][1]["RankStr"],"-")

  

  Dim y=a["Result"]["Ranks"][1]["Title"]

  TracePrint 关键词&"----"&y&"----"&"首页"&x(1)&"位"

  File.writeline(path,1,关键词&","&y&","&"首页"&x(1)&"位")

  万一

  别的

  File.writeline(path1,1,关键词)

  万一

  万一

  有了排名,可以看到如下效果:关键词+网站Title+百度排名

  当然,我这里也用了另外一个csv文件来存储关键词没有排名,保留备份后要优化的词。

  由于之前很多教程都讲过api对接和返回值json的提取方法,这里就不重写了。

  需要注意的几点:

  1、我在测试的时候,url.get命令在拼接url时无法获取数据,所以选择了同样功能的山海命令。

  2.本例中我只写了一个关键词的测试,如果有多个关键词,可以循环获取。

  3、使用脚本时,csv不能打开,否则无法将数据写入csv,导致脚本出错。

  4.本api数据接口支持批量获取数据,请自行研究。

  好了,这个问题就到此为止,

  如果你觉得文章还不错,请点击右下角的“关注”,谢谢!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线