OCR水平评估-软件工程案例分析
优采云 发布时间: 2020-08-07 18:29项目内容
该作业属于哪个课程
计算机科学学院的软件工程,2020年春季(Roger Ren Jian)
此分配的要求在哪里
个人博客分配-软件案例分析
这项工作在哪些方面帮助我实现了目标?
尝试分析软件,计划分析软件的步骤并设计测量方法
教学课
006
内容
第一部分: 使用体验的研究与评估1.使用阈值
作者使用项目测试网站在老师和其他学生的帮助下进行了测试. 感谢老师提供了已配置的Blob存储,这降低了我们进行“评估”的门槛.
尽管我没有亲自配置项目,但是观察了项目设置,需要配置的主要内容是Azure blob容器和Form识别器服务URI和API密钥. 应该说配置门槛还不高.
2. 界面设计
界面设计简单明了. 这是项目网页侧栏的屏幕截图. 有几个图标对应于: 主页,标签编辑器,训练,预测,设置和连接. 中间的三个也对应于深度学习的数据标记,训练和预测的三个过程. 知道去哪里和做什么,使用起来更加方便. (为便于查看,屏幕截图已旋转90°)
3. 数据注释
可以在blob容器中用PDF标记数据注释. 对于结构化PDF,已经预先进行了分段和文本分段.
我个人认为更好的部分是可以将每个标签设置为不同的格式,并且可以看到每个标签在导出JSON时都具有相应的类型.
与阿里云和腾讯云OCR产品相比,我认为这是一个好功能. 对于这种定制的OCR识别产品,用户通常可以估计每个项目中内容的类型,让用户弄清楚这些类型还可以使提供程序提供更多定制和准确的模型.
4. 模型训练
在此OCR产品中,模型训练非常简单,只需单击“训练”列中的训练即可. 训练后,将返回训练集上的准确性. 这里更加人性化,用户无需关注诸如模型的超参数设置之类的细节,只需一键式训练即可.
5. 模型预测
在“预测”界面上,上传需要预测的问题. 在此,测试PDF文件和JPEG文件可以执行预测. 它可以返回每个标签的结果和置信度,还支持JSON格式的批量导出.
在功能测试期间,我对提供的测试文件进行了一些修改和替换,例如用Donald Trump's替换签名,并发现签名未被成功识别. 但是,可以通过将Amount替换为一个数字来识别它,(但请注意,置信度已降低(\(\大约100 \%\ rightarrow 80 \%\))).
但是,特朗普的签名确实有点困难(毕竟,人眼不易识别),我可以用自己写的更常规的签名来代替它.
但是,置信度不是很高,可能需要改进模型对手写文本的识别. 但是,签名时可能会乱涂字体,很难识别(也许您可以抓取签名区域的图片并提供反馈?).
前两个测试都是PDF文档. 由于先前的注释也以PDF格式执行,因此我想测试模型是否支持图像格式. 因为在实际使用中,我们会遇到许多没有标准PDF的情况,而图片是更常见的格式. 因此,我将PDF文档导出为JPEG格式并上传了预测.
预测成功. 可以认为PDF上的注释可以支持图像的预测.
与以前的结果相比,基本上可以找到标签,并且可以保证内容的准确性.
但是:
6. 经验评估和改进建议
体验此产品后,作者体验了两个竞争产品(提供了OCR服务,提供了OCR服务),并总结了使用该产品的经验.
好的方面: 可能需要改进的方面: 7.在BUG反馈的开始,使用Docker在本地构建,将出现一些无法解释的错误,并且反馈相对较慢(可能是由于Internet). 错误报告对于用户查找错误原因不是很友好.
当图像识别预测时,将出现额外的字符. 推测检测框太大.
有重复的预测. (与PDF的结构有关吗?将PDF转换为JPEG后,这里的错误消失了)
8. 比较评价
结论: 不错,不错.
以下是OCR表格工具与所提供的OCR服务之间的比较. 得分1-5.
描述OCR表单工具腾讯云阿里云
功能
预测准确性
4
3
4
多格式支持
4
3
3
用户自定义模板预测
5
5
批次预测
3
3
5
经验
友好的界面
5
3
4
简单的过程
4
3
3
9. 竞争产品评估阿里云OCR服务评估
阿里云还可以为自定义表单模板提供OCR服务. 在这里,我将上述测试文档用作训练模板(转换为JPEG格式),并将修改后的文档用作测试集.
模板上传
只需直接在网页上上传.
数据注释
阿里云提供的数据注释必须用于图像. 红色框是需要在图像上选择的锚点. 蓝色框是对应的标识内容. 逻辑基本上与上述OCR-Form-Tools类似,不同之处在于,图像帧选择的内容不像结构化PDF单击那样平滑.
我认为阿里云可以将PDF添加为模板,因为在实际使用中创建服务的人通常都有PDF模板,并且PDF批注更快,更准确. (方案: 保险公司采集索赔申请,并且保险公司拥有索赔申请文件的PDF模板. )
数据预测
可以看出,预测结果不如上述的OCR-Form-Tools,而且很多项目都有错误.
我认为可能有以下原因:
腾讯云OCR服务
由于我没有在腾讯云中找到用户定义的OCR识别,因此我使用了自收录的表单识别工具. 您可以看到对表内容的爬网识别仍然很好.
但是我认为用户定义的OCR仍然有这样的需求(也许我没有找到),腾讯云可以考虑添加这样的项目.
第2部分分析和估算时间
使用此服务的所有功能,估算此软件/网站/服务达到此水平需要多长时间(团队中大约6人,计算机大学的毕业生和专业的UI支持人员. )
我想知道模型是否需要自学?
如果使用超轻量级中文OCR模型,从部署的角度来看,我个人认为这将花费大约2个月的时间(需求分析+模型部署+前端开发+测试和调试). 但是,可能需要更多时间和精力来调试和优化模型.
竞争产品分析
分析该软件的当前优缺点(与类似软件相比). 在同类产品中,该产品的估计质量是多少?
在第一部分中分析了具体的优缺点.
我个人认为,这次比较的三种OCR产品中,OCR-Form-Tools的准确性最高.
当然,这种比较是不公平的,因为注释数据集的格式是不同的. 我认为这三个都有改进的空间.
第三部分市场和用户的建议和计划
首先,市场有多大?有多少潜在用户?
潜在用户: 需要采集表格并进行统计的用户(例如银行,保险公司,证券公司等). 包括电子表格和纸质表格.
市场: 如果您主要使用人力来采集和输入,则使用此表单进行管理可以大大节省人力成本. 根据每年两次的人均使用量,仅在中国一年就可以使用数十亿次.
竞争产品的比较
当前市场上哪种产品,它们的优缺点在哪里?直接与之竞争的产品在哪里?
本文分析的竞争产品是腾讯云的OCR产品和阿里云的OCR产品. 在第一部分中也分析了利弊.
我认为有必要同时支持多种格式的识别和培训. 当前,阿里云和腾讯云产品不支持PDF训练和预测,只能使用图像格式. 这是需要改进两种产品的地方.
用户头像
作为新的项目经理,该产品的核心用户群是什么样的人,典型的用户是什么样的?您的*敏*感*词*,年龄,专业,业余爱好,收入,表面需求和潜在需求是什么?
核心用户群: 企业,政府机构等商业客户,以银行和保险公司为例.
要求: 快速识别大量格式化的表单文本.
潜在需求: 表单文本的统计,输入,批准等. 增强项目功能,连接到企业OA系统,并简化从标识到批准的过程.
新功能
新功能: 添加标签图像功能;
综合而言,该产品对不同格式文件的适用性更好,但如果一种类型的文档没有pdf格式,而只有图像格式(例如: 优采云票证,*敏*感*词*),无法标记. 解决此类产品的OCR识别问题也是用户的严格要求,因此建议添加此功能.
使用NABCD模型进行分析:
需要: 用户需要图像注释. (可能没有PDF模板)
方法: 类似于阿里云的标签模式,使用定位点+复选框模式进行选择.
好处: 它解决了用户对图像注释的需求. 同时,它可能能够提高模型图像预测的准确性.
竞争对手: 阿里云已经拥有类似的标签模型. 但是,如果对图像进行注释,则该平台支持的数据格式将更加丰富,这将有助于增强竞争力.
交付: 首先发展toB业务并吸引大型企业和机构入驻. 考虑提供集成到办公套件和其他应用程序中的软件.