网页数据采集器的功能介绍-苏州安嘉强
优采云 发布时间: 2021-08-15 02:03网页数据采集器的功能介绍-苏州安嘉强
优采云采集器是专业的网页数据采集器,具有强大的采集功能,无论什么样的网页都可以使用优采云采集器实现批量采集、抓取文本、网页的图片和文件,下载图片和文件,支持代理模式,采集任意站点的网页数据,优采云采集器是采集的绝对神器。
功能介绍
1、强大的*敏*感*词*性
无论是新闻、论坛、视频、黄页、图片、下载网站,只要是浏览器可以看到的结构化内容,通过指定匹配规则,就可以采集得到你想要的内容需要。
2、稳定高效
五年磨一剑,软件不断更新完善,采集速度快,性能稳定,占用资源少。
3、可扩展性强,适用范围广
自定义web发布,自定义主流数据库的保存和发布,自定义本地php和.net外部编程接口处理数据,让数据为您所用。
基本功能
1、Rule 自定义-通过采集rule 的定义,您可以搜索所有网站采集 几乎任何类型的信息。
2、Multitasking,多线程-多信息采集任务可以同时执行,每个任务可以使用多个线程。
3、所见即所得-task 采集process 所见即所得。过程中遍历的链接信息、采集信息、错误信息等会及时反映在软件界面中。
4、数据保存-数据side采集side自动保存到关系型数据库,数据结构可自动适配。软件可以根据采集规则自动创建数据库,以及其中的表和字段,或者通过引导数据库的方式灵活地将数据保存到客户现有的数据库结构中。
5、断点再采-信息采集任务停止后可以从断点继续采集,从此不用担心采集任务被意外中断。
6、网站Login-支持网站cookie,支持网站可视化登录,甚至登录时需要验证码的网站也可以采集。
7、Scheduled tasks-这个功能可以让你的采集任务定时、定量或循环执行。
8、采集 范围限制-采集的范围可以根据采集的深度和网址的logo进行限制。
9、File Download-采集收到的二进制文件(如图片、音乐、软件、文档等)可以下载到本地磁盘或采集result数据库。
10、Result 替换-您可以根据规则将采集的结果替换为您定义的内容。
11、条件保存-您可以根据一定条件决定保存和过滤哪些信息。
12、过滤重复内容——软件可以根据用户设置和实际情况自动删除重复内容和重复网址。
13、特殊链接识别-使用此功能识别由javascript或其他奇怪链接动态生成的链接。
14、数据发布-您可以通过自定义接口将采集的结果数据发布到任何内容管理系统和指定的数据库。目前支持的目标发布媒体包括:数据库(access、sql server、my sql、oracle)、静态htm文件。
15、预留编程接口-定义多个编程接口,用户可以在活动中使用php、c#语言进行编程,扩展采集功能。
特点
1、支持网站所有编码:完美支持采集所有网页编码格式,程序还能自动识别网页编码。
2、多种发布方式:支持当前所有主流和非主流cms、bbs等网站节目,通过系统发布可以实现采集器和网站节目的完美结合模块。
3、Automatic:无人值守的工作。程序配置完成后,程序会根据您的设置自动运行,无需人工干预。