怎样抓取网页数据(借助ABBYYFineReader15文字识别软件快速识别为表格数据表格)

优采云 发布时间: 2021-10-15 21:16

  怎样抓取网页数据(借助ABBYYFineReader15文字识别软件快速识别为表格数据表格)

  在一些政府公共信息共享网站或专业数据共享组织网站中,会定期共享一些社会发展数据或与时事相关的数据。这些数据通常在网页上共享,很少提供文件下载。

  如果直接复制这些数据,排版数据会花费很多时间。但借助ABBYY FineReader PDF 15文本识别软件,可以快速识别为表格数据,导出为可编辑的数据表格。接下来,我们来看看它的操作方法。

  一、 网页表单数据截图

  首先打开相关数据网站,对数据表区域进行截图。

  

  图1:打开网页截图

  如图2所示,在截图过程中,建议尽量保持表格边框的完整性,以提高ABBYY FineReader PDF 15识别的准确率。

  

  图 2:完成的表数据的屏幕截图

  二、使用OCR编辑器识别表单

  接下来,打开ABBYY FineReader PDF 15文本识别软件,使用“在OCR编辑器中打开”功能打开网站中刚刚截取的表单数据。

  

  图 3:在 OCR 编辑器中打开图片

  然后,等待软件完成对图片的文字识别。在识别过程中,为了提高文字识别的准确率,软件会建议图片的分辨率或指定的OCR语言。如果条件允许(如提高图像的分辨率),您可以按照建议修改相关设置。

  

  图 4:完整的 OCR 识别

  完成文本识别程序后,我们需要在区域属性面板中检查表格标记的区域属性是否正确。如图 5 所示,您可以看到 ABBYY FineReader PDF 15 已正确将此区域标记为表格区域。

  

  图 5:区域属性

  然后,看到软件的文本编辑面板。如图6所示,可以看到文字已经以电子表格的形式呈现出来了,可以在单元格中编辑文字了。

  

  图 6:文本编辑器

  三、导出到Excel

  为了方便后续的数据处理,我们可以将识别出的电子表格保存为Excel文件。如图7所示,在文本编辑面板顶部选择Excel表格的保存格式后,即可将当前文本导出为Excel文件。

  

  图 7:另存为 Excel 电子表格

  打开导出的Excel文件,可以看到ABBYY FineReader PDF 15不仅可以准确识别数据,还可以“复制”表格的格式,很好地将数据导出到每个单元格。这种类型的导出可以减少排版大量数据所需的时间。

  

  图 8:导出的 Excel 表

  四、总结

  通过使用ABBYY文字识别软件的数据表格识别功能,我们可以快速将图片中的表格转换为可编辑的电子表格,提高数据使用效率。你有这么好用的功能吗?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线