用于信息资源集成和Web数据捕获,网站捕获,信息采集技术
优采云 发布时间: 2020-08-06 16:15Lesi文本采集系统
I. 主要功能
Lesi文本采集系统的主要功能是: 根据用户定义的任务配置,分批准确地提取目标文本文件中的内容,将其转换为结构化记录,然后保存在本地数据库中. 特别适用于网络博客/博客文章采集,RSS / ATOM XML内容采集,Text / CSV内容采集,任意格式的XML采集,自定义结构文本内容采集等. 功能图如下:
二,系统特点
支持在远程HTTP或FTP服务器上提取文本文件内容
支持本地文本文件内容提取
支持常见的文件格式: *. TXT,*. CSV,*. XML,*. HTM
支持带后缀的文本文件
内置六种记录块分割方法,几乎可以支持任何格式的数据提取
支持命令行格式,可以与Windows任务计划程序配合定期提取目标数据
支持记录唯一索引,以避免重复存储相同信息
支持完全自定义数据库表结构
保证信息的完整性和准确性
支持各种主流数据库,例如MSSQL,Access,MySQL,Oracle,DB2,Sybase等.
三,操作环境
操作系统: Windows XP / NT / 2000/2003
内存: 建议至少32M内存,建议128M或以上
硬盘: 至少20M可用硬盘空间
四个. 行业应用
Web Text Miner主要用于: 提取实时网络数据和提取本地特殊格式数据.
门户网站
可以做到:
每天从目标网站的新闻RSS聚合或Blog聚合中提取信息(标题,作者,内容等)到数据库
好处:
轻松集成来自不同来源的在线新闻和Web日志
股票和证券业
可以做到:
每天将指定的远程文本文件或网页中的市场数据自动采集到数据库中.
好处:
轻松获取市场数据数据库
实时市场分析
金融业
可以做到:
每天自动将指定的远程文本文件或网页中的财务信息采集到数据库中
好处:
轻松获取市场数据数据库
实时市场分析
科研机构
可以做到:
某些科学研究应用程序的输出只能是文本文件,可以使用此软件将其转换为数据库
好处:
无需程序员的帮助即可轻松转换数据,并且每分钟可以处理数十个M数据