能够自动发布文章的自动采集器(数字化加工标引系统的功能特点及功能介绍-苏州安嘉 )
优采云 发布时间: 2021-11-15 07:00能够自动发布文章的自动采集器(数字化加工标引系统的功能特点及功能介绍-苏州安嘉
)
数字加工分度系统
该系统主要完成两项任务:数字处理和元数据索引。其中,数字化处理主要是各种图书的扫描和电子化处理,以及各种格式的电子资源的转换,统一转换成XML格式的文档。元数据索引基于XML元数据标准,实现图书等资源的碎片化处理索引。将书中所有元数据对应到相关的XML元数据节点,同时对章节内容进行分片。系统采用版面分析、智能匹配、手动自动和*敏*感*词*处理和索引。
数字处理软件由一系列处理工具软件组成,主要对出版社历史存量的出版资源进行数字化处理、转换、二次编辑、分片索引、知识提取等。它是数字出版平台中的基础工作环节,对内容资源进行数字化、标准化、结构化、碎片化、变形。
网络资源采集系统
主要定向和结构化来自互联网的采集网络公共资源,包括网页、图片、文档等资源,通过智能数据处理(分类、聚类、挖掘)、存储、发布、与发布者沟通' 资源综合出版。可根据用户自定义站点和爬取策略,针对不同格式的采集网络数据,根据用户自定义分类系统智能分类构建档案,与出版社资源关联整合。形成有效的补充。
特征:
有针对性的结构化采集:根据采集策略,定时增量捕获集合网站的发布数据,进行信息过滤、信息去噪和结构化内容提取;
自动分类:利用自然语言处理技术对采集接收到的信息进行智能分类挖掘;
自动聚类:通过对采集内容的挖掘和分析,对互联网信息进行自动聚类,从而发现热点信息。
电子文件转换工具
电子文件统一格式转换,支持WORD、PDF、TXT、HTML、epub、方正排版文件的无损转换,实现出版商和作者使用的主流文档格式的标准化和标准化;支持自动转换和批量转换;支持文件的DRM加密;支持多种字符集,提供补字符功能。
完整性检查:检查排版文件的完整性并输出日志
文件拆分:将电子文件按照一定的规则拆分成多个文件
文件合并:将多个电子文件批量合并为一个电子文件
格式转换:单独或批量转换各种格式的文件
元数据索引-结构化索引工具
元数据索引:通过人机交互直接拖动框从版本文件中选择元数据内容,完成每个元数据项的索引;
章节拆分:按照书籍、文档等目录级别拆分具体章节内容,按照目录级别进行管理,同时拆分每个章节下的段落、图片、表格、公式等内容;
元数据智能匹配:根据图书和文档的版本特征,基于版式识别,根据模板自动对电子文档中的相关元数据进行索引匹配,提高索引效率和自动化程度;
目录识别:通过版面分析,自动定位目录页并拆分目录条目,然后分析目录标题、页码、级别等信息,然后通过人机呈现给用户确认相互作用;
XML 元数据校对:通过可视化 XML 编辑器浏览和校对索引的 XML 数据。
元数据索引-内容分片索引工具
传统数据库有很大的缺点。用户获取的信息多为文章或整本书,往往费时费力。出版物内容的结构化是为了解决上述弊端,将信息处理发展到知识层面,为用户提供更好的知识服务。标准化的碎片化内容支持资源的重组和利用,创造多元化的出版。网络化的知识组织可以揭示知识的发展。知识元是知识的基本单元,是从文献层面渗透到文献中的知识点、概念、事实等的最小的独立知识单元。利用计算机人工智能技术对文档内容进行碎片化,自动提取满足出版需求的知识元素,自动索引知识元素的知识属性,这对于构建知识元素数据库、提供出版资料、生成电子书、重组出版具有重要意义。根据。
内容碎片化(知识元素提取)工具分为知识元素识别和知识元素分类两部分。知识元素识别是指自动挖掘文献中的知识元素,知识元素分类是将挖掘出的知识元素自动分类到知识元素数据库的框架中。