利用采集器 采集的平台(采集器优采云采集器(www.ucaiyun.com)支持网站可视化登录-支持登录)
优采云 发布时间: 2021-09-11 19:14利用采集器 采集的平台(采集器优采云采集器(www.ucaiyun.com)支持网站可视化登录-支持登录)
标签:采集器
优采云采集器()是一款专业强大的网络数据/信息挖掘软件。通过灵活配置,可以轻松抓取文字、图片、文件等任何资源,程序支持图片文件远程下载,支持网站post-login信息采集,支持文件真实地址检测,支持代理,支持采集防盗链,支持采集直接数据存储和模仿人手动发布等诸*敏*感*词*。
主要功能
1、rule定制——通过采集rules的定义,可以搜索到网站采集几乎所有类型的信息
2、Multitasking,多线程-多信息采集任务可以同时执行,每个任务可以使用多个线程
3、所见即所得-任务采集process所见即所得。过程中遍历的链接信息、采集信息、错误信息等会及时反映在软件界面中。
4、Data Storage-Data Edge 采集边自动保存到关系型数据库,自动适配数据结构。软件可以根据采集规则自动创建数据库,以及其中的表和字段,或者通过引导数据库的方式灵活地将数据保存在客户现有的数据库结构中
5、断点再采-信息采集任务停止后可以从断点继续采集,从此不用担心采集任务被意外中断
6、网站login-support网站Cookie,支持网站可视化登录,即使网站登录时需要验证码,采集也可以使用
7、Scheduled tasks-这个功能可以让你的采集任务定时、定量或者一直循环执行
8、采集范围限制-采集的范围可以根据采集的深度和URL的标识进行限制
9、File Download-采集收到的二进制文件(如图片、音乐、软件、文档等)可以下载到本地磁盘或采集result数据库
10、Result 替换-可以将采集的结果替换成你按照规则定义的内容
11、条件保存-可以根据一定条件决定保存哪些信息,过滤哪些信息
12、过滤重复内容-软件可以根据用户设置和实际情况自动删除重复内容和重复网址
13、特殊链接识别-使用此功能识别由JavaScript动态生成的链接或其他奇怪链接
14、数据发布-您可以通过自定义接口将采集的结果数据发布到任何内容管理系统和指定的数据库。目前支持的目标发布媒体包括:数据库(access、sql server、my sql、oracle)、静态htm文件
15、预留编程接口-定义多个编程接口,用户可在活动中使用PHP、C#语言进行编程,扩展采集功能
软件功能
1、 通用性强:无论新闻、论坛、视频、黄页、图片、下载网站,只要是浏览器可以看到的结构化内容,通过指定匹配规则,就可以采集你所需要的
2、稳定高效:五年磨一剑,软件不断更新完善,采集速度快,性能稳定,占用资源少
3、可扩展,应用范围广泛:自定义网页发布、主流数据库的自定义存储和发布、自定义本地PHP和. net外部编程接口对数据进行处理,使数据可供您使用
4、支持网站所有编码:完美支持采集所有网页编码格式,程序还能自动识别网页编码
5、多种发布方式:支持当前所有主流和非主流cms、BBS等网站节目,通过系统发布可以实现采集器和网站节目的完美结合模块
6、Automatic:无人值守工作,程序配置好后,程序会根据您的设置自动运行,完全无需人工干预。