采集器采集(优采云采集器完美支持采集所有编码格式的网页,程序还可以自动识别网页编码)
优采云 发布时间: 2021-09-03 19:14采集器采集(优采云采集器完美支持采集所有编码格式的网页,程序还可以自动识别网页编码)
优采云采集器是一个非常强大的数据采集器,完美支持采集所有网页编码格式,程序还可以自动识别网页编码,支持当前所有主流和非主流cms、BBS等网站节目,通过系统的发布模块可以实现采集器和网站节目的完美结合。
功能介绍
1、强大的*敏*感*词*性
无论是新闻、论坛、视频、黄页、图片、下载网站,只要是浏览器可以看到的结构化内容,通过指定匹配规则,就可以采集得到你想要的内容需要。
2、稳定高效
五年磨一剑,软件不断更新完善,采集速度快,性能稳定,占用资源少。
3、可扩展性强,适用范围广
自定义网页发布,自定义主流数据库的存储和发布,自定义本地PHP和. Net外部编程接口对数据进行处理,让您可以使用数据。
4、 支持所有网站 编码
完美支持采集网页所有编码格式,程序还能自动识别网页编码。
5、多种发布方式
支持当前所有主流和非主流cms、BBS等网站节目,通过系统的发布模块可以实现采集器和网站节目的完美结合。
6、Automatic
无人值守的工作。程序配置完成后,程序会根据您的设置自动运行,无需人工干预。
7、local 编辑
本地可视化编辑已采集数据。
8、采集测试
这是任何其他类似的采集 软件所无法比拟的。程序支持直接查看采集结果并测试发布。
9、管理方便
使用站点+任务方式管理采集节点。任务支持批量操作,便于管理更多数据。
软件功能
1、规则定制
通过采集规则的定义,可以搜索到网站采集几乎所有类型的信息。
2、多任务、多线程
多个信息采集任务可以同时执行,每个任务可以使用多个线程。
3、所见即所得
任务采集process所见即所得,过程中遍历的链接信息,采集信息,错误信息等会及时反映在软件界面中。
4、数据保存
数据边采集边自动保存在关系数据库中,可以自动适配数据结构。软件可以根据采集规则自动创建数据库,以及其中的表和字段,还可以灵活的将数据导入到客户现有的数据库结构中。
5、breakpoint 持续挖矿
Information采集task 停止采集后可以从断点继续,从此不用担心采集任务被意外中断。
6、网站登录
支持网站Cookie和网站visualized登录,即使网站登录时需要验证码,也可以采集。
7、plan 任务
通过此功能,您的采集任务可以定期、定量或始终循环执行。
8、采集范围限制
采集的范围可以根据采集的深度和网址的logo进行限制。
9、文件下载
您可以将采集收到的二进制文件(如图片、音乐、软件、文档等)下载到本地磁盘或采集结果数据库中。
10、结果替换
您可以根据规则将采集的结果替换为您定义的内容。
11、条件保存
您可以根据一定的条件决定保存哪些信息,过滤哪些信息。
12、过滤重复内容
软件可以根据用户设置和实际情况自动删除重复内容和重复网址。
13、特殊链接识别
使用此函数来识别由 JavaScript 动态生成的链接或其他奇怪的链接。
14、数据发布
您可以通过自定义接口将采集的结果数据发布到任何内容管理系统和指定的数据库。目前支持的目标发布媒体包括:数据库(access、sql server、my sql、oracle)、静态htm文件。
15、预留编程接口
定义多个编程接口。用户可以在活动中使用PHP和C#编程扩展采集功能。
菜单功能
1、新群
创建任务组,选择所属组,确定组名和备注。
2、新任务
确定所属组,新建任务,填写任务名称并保存。
3、Web 发布配置
Web 发布配置定义了如何登录网站 并向该网站 提交数据。
主要涉及登录信息的获取、网站编码设置、栏目列表的获取、使用数据测试发布效果。
4、Web 发布模块
可以定义网站登录、获取栏目列表、获取网页随机值、内容发布参数、上传文件、构建发布数据等高级功能。
5、数据库发布配置
数据库发布配置定义了数据库链接信息的设置和数据库模块的选择。
6、数据库发布模块
用于编辑数据库的发布模块,以便我们可以将数据发布到配置好的数据库中。
优采云采集器可选择mysql、sqlserver、oracle,访问四种数据库类型,在文本输入框中填写sql语句
(需要数据库知识),并且可以使用标签来替换相应的数据。您也可以在采集器module 文件夹中加载模块进行编辑。
7、plan 任务
设置列表中采集任务的启动时间表,可以是每间隔,每天,每周,仅一次,或者自定义cron表达式,
(cron表达式的编写请参考相关术语的介绍)。保存设置后,即可根据设置执行任务。
8、插件管理
插件是可以用来扩展优采云采集器功能的程序
优采云采集器V9 支持三种类型的插件:PHP 源代码、C# 源代码和 C# 库,