全托管文章智能采集系统作者:包鹰一、采集需求
优采云 发布时间: 2022-09-19 15:05全托管文章智能采集系统作者:包鹰一、采集需求
全托管文章智能采集系统作者:包鹰
一、采集需求
1、数据采集的格式支持json,pdf,word,
2、采集进度和总字段显示
二、数据采集环境运行平台系统采集平台系统运行环境环境架构2.1采集平台架构整个系统共分为几个部分:采集、分词、语义分析、ocr(图片文字识别)、相似文档提取。2.2采集平台功能2.2.1采集平台采集进度显示每日、每周和每月采集进度都一目了然,在分析的时候还可以看到每天、每周、每月的某个字段的采集情况,减少大家的工作负担。
2.2.2数据导出在工作中需要大量的excel格式数据导出,比如工作总结表等。采集平台完美支持excel导出,不过在导出的时候需要先联网输入采集文件的路径,然后打开采集文件才能导出。2.2.3相似文档分析相似文档分析在采集的数据中关键字就会在相似文档中出现,关键字可以提取为id标识,并且用文本编码,方便用户选择提取关键字,实现快速定位。
利用相似度计算,得到相似度指数,相似度大于某个阈值就表示该关键字在整个文档中出现相似度非常高。2.2.4ocr(图片文字识别)对分词后的文字进行ocr(图片文字识别),而后转换为数字格式,然后实现自动检索,计算相似度等功能。2.2.5相似文档提取相似文档提取主要是针对已经收集的多篇文档,重新进行文字替换,提取相似度,降低重复文字,从而实现自动检索,实现文字信息的自动分词,并且可以建立文本模型。
2.2.6推荐文章推荐文章提取文章的内容,利用文字图片作为外链,将文章推送给指定用户。2.2.7图片制作文件利用网页解析工具将word文档解析成json或docx文件,然后利用wordconverter工具将文字转换成图片。
3、数据提取功能3.1数据提取文件格式支持pdf,json,json.parse,pdf.parse等格式,可以根据需要进行选择。