酷采!互联网信息采集挖掘并同步更新数据库
优采云 发布时间: 2021-07-19 23:15酷采!互联网信息采集挖掘并同步更新数据库
酷!是一款功能强大的互联网信息库采集挖掘和同步更新软件产品。它让我们远离了大量简单繁琐的复制粘贴工作,让我们能够在短时间内拥有海量数据。
支持多种编码:GBK、BIG5、UNICODE、UTF8。
支持多种网站类型:包括Html、Rss、Ajax。
网站登录验证:支持网站登录,支持网站Cookie,甚至需要验证码登录的网站也能轻松通过。
自定义采集rules:通过采集rules的定义,几乎可以搜索到网站的所有内容。
Smart采集及识别:系统会识别网页上的图片、FLASH、PDF、MP3、视频、JavaScript链接、EMAIL、电话号码等,并下载或存入库。
任务调度和信息监控:可以定时启动系统完成采集工作;也可以锁定网页,找到必要的链接后才去采集实现信息监控功能。
Condition采集:采集时可以设置一些条件或关键字。即需要采集,不需要采集。
Pagination采集:可以使用带有分页的采集pages,可以将多个页面的内容组合在一起进行处理。
数据自动重新加权:系统默认会处理重复的网页,您也可以自定义其他字段的重新加权设置。
数据格式处理:可以保留或删除采集内容的段落格式,可以更改其收录的图片或附件的路径(如将下载图片的路径更改为本地路径)
多线程多任务:可以同时启动多个线程,多个任务可以协同工作,互不干扰;可根据系统性能随时增减线程数,最大限度提高工作效率。
所见即所得:可以实时看到自己的采集数据、错误信息、线程工作信息。
自动数据保存:采集数据实时结构化保存在系统自带的数据库中(也可以用户自定义数据库,但表和字段的创建由系统完成),无需手动设置...