完整的解决方案:基于智能文档处理的招投标信息自动抓取和匹配

优采云 发布时间: 2022-10-29 11:55

  完整的解决方案:基于智能文档处理的招投标信息自动抓取和匹配

  解决方案

  招标公告通常由各招标单位在当地公共资源交易中心、行业招投标等发布。网站,来源众多,文件结构不同,文件形式多样(Word/PDF/HTML/扫描图片等) 。) 特征。如果只通过解析HTML的DOM结构来解析文档,信息提取的效果并不理想,对不同的网站或文档的适应性也很差。

  为了使方案尽可能通用,来业科技通过RPA机器人将所有招标文件转换为PDF文件,然后利用OCR技术识别文件内容和结构信息,最后利用NLP技术解析文件内容形成RPA+ OCR+自然语言处理。智能文档处理解决方案。来业科技的招投标智能文件处理系统分为公告采集、信息提取、业务决策三大环节。

  1. 公告捕获

  在捕获招标公告方面,我们针对关键信息源(如中国政府采购网、公共资源交易网、各地区、各行业的核心招标网站)构建了采集机器人实时查看采集建设工程招投标公告、招标文件、中标公告3个文件,确保数据全覆盖,及时掌握最新商机。使用来也科技RPA工具构建的采集机器人具有代码少、维护方便等优点,通过来也科技人机协同中心,可以实现人工采样和快速流程干预,解决了以前数据的问题 抓住必须由专业人员维护的难点。

  2.信息提取

  抓取到的公告通过OCR获取到文档中收录的内容和结构信息后,就可以开始信息提取了。招标公告一般收录多种结构(段落、列表、表格等),各个省市的格式也不同。内容由自然语言描述组成,有近20个字段可供提取。因此,信息提取的挑战是巨大的。因此,需要大量的标记数据来训练深度学习模型。

  为了应对上述难点,我们采用了深度学习+领域专家经验相结合的抽取方案。在深度学习模型方面,我们基于大量招标公告数据,加上一些具有专家经验的后处理,对BERT模型进行了训练,成功使信息提取的F1指数*达到0.88。

  *F1指标:准确率和召回率的综合评价指标,越接近1,算法或模型越好

  为了降低标注难度,我们还开发了数据标注平台,支持框选、wordmarking等多种标注方式,可为NER、分类、文档序列化、实体关系等多种NLP任务提供数据标注萃取。

  3. 商业决策

  

  信息抽取完成后,为了达到商机筛选的目的,需要进行业务分类、属性识别、资格匹配等业务逻辑处理。

  以资质匹配为例,该流程包括招标公告中资质表达的生成、目标公司资质库的构建、表达解决三个过程。

  招标公告资格表达式生成

  建设项目招标公告的“申请人资格要求”部分收录投标人必须具备的资格,其中最重要的是企业资格要求。首先,我们将确定的资质要求,如“建筑装饰工程设计与施工二级及以上”,替换为占位符(Tokens)(下图中的A、B、C);然后,做依赖语法分析,识别句子中不同占位符之间的依赖关系,以及占位符与逻辑关系关键词(and、or等)之间的依赖关系;最后通过规则将依赖语法树转化为逻辑表达式。如下图所示。

  示例:本专业承包工程资格预审要求申请人具有建筑装饰工程设计施工二级及以上、建筑机电安装工程专业承包三级【新】及以上,或建筑装饰装修工程专业承包二级【新】及以上和建筑机电安装工程专业承包三级【新】及以上资质,单项合同金额600万元(含)的房屋*敏*感*词*近3年竣工或建筑面积4000平方米(含)以上的。

  目标公司资质库结构化

  通常,一个资格要求由“行业资格”、“专业资格”和“水平要求”三部分组成。虽然不同的投标人在编写投标文件时会对这三个部分进行不同的描述,但是这三个部分的顺序必须是固定的,否则就是完全不同的资格。

  如:“建筑装饰工程设计与施工二级”与“建筑装饰工程设计与施工二级”为同一资质

  构建目标公司资质库的目的是将目标公司的所有资质拆分成以上三个部分,从而可以将每个部分与目标资质进行模糊区分。

  表达式求解

  借助目标公司结构化的资质库和既定的资质要求逻辑表达,最终可以输出目标公司是否符合招标资质。

  资格匹配示例

  表达式求解示例

  

  4.人机协同优化模型

  以上内容是来业科技对部分投标信息的自动抓取匹配部分的系统设计。但是在实践中,我们都知道机器不可能100%准确(新格式、领域词汇、表达方式等),因此我们也准备了人机协作模块。

  在 RPA 处理过程中,信息抽取和业务推理完成后,置信度低或不符合业务经验的数据会根据模型的置信度输出,辅以业务经验(例如无法没有投标金额)。同时,也可以对每天处理的数据进行人工采样。当手动发现错误时,可以直接在贴标平台上进行纠正。修正后的数据积累到一定程度后,会开始模型的增量训练,提高模型的效果,关闭数据循环。

  通过实验验证,通过对900个错误数据的迭代训练,模型的F1指数可以快速提升0.12,效果非常可观。

  在上面的实验中,我们发现通过少量错误数据(900篇相比1w篇)进行模型迭代可以有效提升模型的效果,所以我们尝试将基础模型的训练数据减少到1/4对原创模型进行重新训练,然后使用900个错误数据对模型进行迭代,我们发现它也可以提高模型的效果(与原创方案相比仅降低了F1指数0.003)。

  通过人机协作模块的实验,我们得出结论,以少量数据开始训练,然后对错误的样本进行迭代训练,不仅可以快速提升模型的效果,而且可以大大减少初始标注成本。

  效果评价

  招标公告提取效果评价的总体F1指数为0.88,重要领域的F1指数超过0.85。以下是部分字段的效果:

  为了验证数据闭环的效果,我们选取​​了一些处理过程中出现错误的数据。在原有基础上进行增量训练后,信息抽取模型部分的F1指数从0.665提高到0.786。将基础模型的训练数据随机减少到原来的25%,对错误数据进行迭代,F1指标依然可以达到0.783。

  在上述案例客户的申请过程中,每天处理约3000份招标文件,涉及34个省级行政区域和357个城市。软件机器人可以帮助目标公司提前筛选出约40%的不符合要求的招标文件。大大节省了筛选的人工成本。

  本文介绍了智能文档处理在招标领域的应用。利用来也的RPA和NLP技术自动抓取招标文件、提取信息、辅助商业判断,可以实时发现商机并辅助决策,提高商机转化率,降低成本对招投标进行人力筛选,提升公司竞争力。该方案也适用于其他需要对大量文档进行分析和决策的场景,可广泛应用于各类企业文档的处理。

  汇总:SEO查询工具-免费SEO自动批量查询诊断分析工具

  SEO查询工具-免费的SEO自动批量查询诊断分析工具

  穆念慈 SEO Entertainment

  2022-06-18 19:55 四川

  SEO查询工具,什么是SEO查询工具?为什么要使用 SEO 查询工具。我们都得通过大量的网站数据来判断网站的状态。今天给大家分享一款支持全站数据查询分析的万能SEO查询工具。同时还支持通过peer网站进行详细查询。免费的SEO详细查询工具让网站优化更简单。细节如图。

  打开网易新闻查看精彩图片

  或许普通人在阅读网站时对网站的排名没有这种理解,但大家通常会阅读更多关于排名靠前的网站。如果是后者网站的人平时很少点击,那么自然不会太关注后者网站的内容,即使在某种情况下,这些后来的网站 内容会更好。

  打开网易新闻查看精彩图片

  

  那么对于网站的管理者和站长,他们会特别关注网站的排名。如果 SEO 查询工具能够因为 网站 排名而在搜索引擎中排名靠前,则意味着更多的流量。如果我的网站在搜索引擎中排名垫底,我的网站停止推广也无济于事。这种情况下,会降低整个网站的运算值,影响到这个网站。网站的后续开发。

  打开网易新闻查看精彩图片

  所以,这些网站的管理者和站长会用各种方法让自己的网站在搜索引擎中排名靠前,SEO查询工具也会更加关注网站的标题。如关键词,因为搜索用户会搜索一些关键词,然后阅读这些网站。那么自然搜索引擎会认为这些关键词比较重要,但是这个关键词也比较准确,最好不要用那种流行的关键词。

  打开网易新闻查看精彩图片

  除了关键词的重要性,网站的结构也会与网站的操作有更大的联系。如果搜索用户输入这个网站这个SEO查询工具,发现这个网站的结构很杂乱,所以搜索用户不会点击进入这个网站。而如果这个网站结构和网站内容可以匹配搜索用户,那么搜索用户自然会点击进入这个网站。

  打开网易新闻查看精彩图片

  决定关键词排名的因素很多,估计有上百个。SEO查询工具关键词在网站上的排名如果能处理好这数百个限制关键词排名的因素,将会非常有效。作为 SEO,这是推动这些 关键词 排名的原因。

  

  打开网易新闻查看精彩图片

  很多情况下,网站优化到一定时期后,需求就停止了规划和调整。SEO查询工具的简单规划设计可能无法满足网站规划调整的需要。要解决这个问题,可能需要更改 网站 程序,也就是说,如果此时 网站 无法正常运行,与重建网站 被搜索引擎惩罚。那么,即使是网站的规划调整也只能在连接搜索引擎之后进行。比如百度站长平台的网站改版和维护工具的关闭,所以网站规划调整的范围应该从小到大停止,不能一下子改很多.

  打开网易新闻查看精彩图片

  网站 的死链接处理也很容易被忽视,尤其是对于大型 网站。很多内容删除等操作导致的死链接,一开始没有及时处理,死链接的问题是在很多事情积累之后才发现的。当然,如果前面提到的网站页面设计做了很大的调整,比如URL链接路径修正后产生的死链接,就必须要处理了。但是在网站的长期优化操作中,如果经常检测不到死链接,网站很可能会产生大量死链接,从而影响关键词的排名. 很多朋友都知道

  打开网易新闻查看精彩图片

  首页使用301重定向,但是如果形成多个item打开很多内部页面,对于优化性能也能起到非常不利的作用。众所周知,网站的URL路径一般分为动态路径、静态路径和伪静态路径。如果一个页面可以同时通过两个通道访问,那么页面的权重就会被严重分散。那么在运行过程中,我们需要通过robot协议阻断其他方式。当然,这是指在运行过程中存在伪静态现象。如果网站程序可以设置生成静态路径,可以防止多个条目指向页面。

  打开网易新闻查看精彩图片

  除了上述之外,还值得控制 网站 页面的打开速度和 网站 比率的有效数量。SEO查询工具 最后还有一个朋友的问题。为了更好的让精准用户进入网站,通过这些精准用户,根据网站的阅读行为,统计工具Data对网站的seo进行剖析和微调优化操作,网站的地址在任何地方都不容易找到。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线