内容采集系统( 优采云采集器(www.ucaiyun.com)的数据采集软件开发环境介绍)
优采云 发布时间: 2022-02-19 19:09内容采集系统(
优采云采集器(www.ucaiyun.com)的数据采集软件开发环境介绍)
优采云采集系统
优采云采集器(),由合肥工业大学毕业生李金斌开发,是一款功能强大的数据采集软件。使用它,您可以轻松地从网页中抓取文本、图片、文档和其他资源。程序支持远程下载图片文件,支持网站登录后信息采集,支持文件真实地址检测,支持代理,支持防盗链采集,支持采集数据直接录入库和模仿器手动发布等。同时,软件具有极高的稳定性,可以进行多线程和多任务,并且可以使用它来更新大量数据。该程序还支持多页和分页的采集,即使是最困难的数据格式也能找到解决方案。
系统总览
官方地址:
软件类型:商业软件
开发环境:.Net/Access/MySQL/MSSQL/Oracle
系统特点:
规则定制
所有网站采集几乎任何类型的信息都可以通过采集规则的定义进行搜索。
多任务,多线程
可以同时执行多个信息采集任务,每个任务可以使用多个线程。
你所看到的就是你得到的
任务采集流程是所见即所得,流程中遍历的链接信息、采集信息、错误信息等都会及时反映在软件界面中。
数据保存
数据自动保存到采集边缘的关系型数据库中,可以自动适配数据结构。软件可以根据采集规则自动创建数据库,以及其中的表和字段。将数据保存到客户现有的数据库结构中。
继续挖矿
信息采集任务停止后可以从断点采集继续,因此您再也不用担心采集任务被意外中断了。
网站登录
支持网站Cookies,支持网站可视化登录,甚至登录时需要验证码的网站也可以采集。
计划任务
通过该功能,采集 任务可以定时、定量或循环执行。
采集范围限制
采集 的范围可以根据采集 的深度和URL 的身份来限制。
文件下载
二进制文件(如:图片、音乐、软件、文档等)可以下载到本地磁盘或采集结果数据库。
结果替换
您可以根据规则将 采集 的结果替换为您定义的内容。
有条件的保存
您可以根据一定的条件决定保存哪些信息,过滤哪些信息。
过滤重复内容
软件可以根据用户设置和实际情况自动删除重复内容和重复网址。
特殊链接识别
使用此功能可以识别 JavaScript 中动态生成的链接或其他更古怪的连接。
数据发布
采集 的结果数据可以通过自定义界面发布到任何内容管理系统和指定数据库。现在支持的目标发布媒体包括:数据库(access、sqlserver、mysql、oracle)、静态 htm 文件。
预留编程接口
定义多种编程接口,用户可以在事件中使用PHP、C#语言进行编程,扩展采集的功能。