全方面的采集神器(【通讯技术】网站采集测试的基本操作流程及注意事项)
优采云 发布时间: 2021-12-22 10:00全方面的采集神器(【通讯技术】网站采集测试的基本操作流程及注意事项)
5、采集 测试:这是任何其他类似的采集 软件都无法比拟的。程序支持直接查看采集结果和测试发布。
6、 管理便捷:使用站点+任务模式管理采集节点,任务支持批量操作,更轻松的数据管理。基本功能1、规则定制——通过采集规则的定义,可以搜索到几乎所有的网站采集信息。
2、Multitasking,多线程——可以同时执行多个信息获取任务,每个任务可以使用多个线程。
3、所见即所得-task 采集流程所见即所得,流程中遍历的链接信息、采集信息、错误信息等都会在软件界面中体现及时处理。
4、数据保存-采集的同时数据自动保存到关系型数据库中,数据结构可以自动适配。软件可以根据采集的规则自动创建数据库,以及其中的表和字段,也可以通过数据库导航的方式灵活地将数据保存到客户现有的数据库结构中。
5、断点恢复采集-信息采集任务可以在停止后从断点处恢复采集,从此你再也不用担心你的采集任务被意外中断了.
6、网站Login-support 网站Cookie,支持网站可视化登录,即使网站登录时需要验证码也可以采集。
7、定时任务-通过此功能,您的采集任务可以定时、定量或循环执行。
8、采集范围限制-采集的范围可以根据采集的深度和URL的logo进行限制。
9、文件下载-采集收到的二进制文件(如图片、音乐、软件、文档等)可以下载到本地磁盘或采集结果数据库。
10、结果替换-可以将采集的结果按照规则替换成自己定义的内容。
11、条件保存——根据一定条件,可以保存哪些信息,可以过滤哪些信息。
12、 过滤重复内容——软件可以根据用户设置和实际情况自动删除重复内容和重复网址。
13、特殊链接识别-使用此功能识别由JavaScript动态生成的链接或其他奇怪的链接。
14、数据发布-您可以通过自定义接口将采集的结果数据发布到任何内容管理系统和指定的数据库。目前支持的目标发布媒体包括:数据库(access、sql server、my sql、oracle)、静态htm文件。
15、预留编程接口-定义多个编程接口,用户可以在事件中使用PHP、C#语言进行编程,扩展采集的功能。优采云采集器核心功能1、新建组
新建一个任务组,选择它所属的组,确定组名和备注。
2、新任务
确定你所属的组,新建一个任务,填写任务名称并保存。
3、网络发布配置
web发布配置定义了如何登录网站并向网站提交数据。
主要涉及登录信息的获取、网站编码设置、栏目列表的获取、使用数据测试发布效果。
4、网络发布模块
可以定义网站登录、获取栏目列表、获取网页随机值、内容发布参数、上传文件、构建发布数据等高级功能。
5、数据库发布配置
数据库发布配置定义了数据库链接信息的设置和数据库模块的选择。
6、数据库发布模块
发布模块用于编辑数据库,方便我们将数据发布到配置好的数据库中。
您可以从四种数据库类型中进行选择:mysql、sqlserver、oracle 和 access。在文本输入框中填写sql语句(需要数据库相关知识),用标签替换相应的数据。您还可以在 采集器 模块文件夹中加载模块进行编辑。
7、预定任务
设置列表中采集任务的启动时间表,可以是每间隔,每天,每周,仅一次,或者自定义cron表达式(cron表达式的编写请参考相关介绍条款)。保存设置后,即可根据设置执行任务。
8、插件管理
插件是可以用来扩展优采云采集器的功能的程序
优采云采集器V9 支持三种插件:PHP 源代码、C# 源代码和 C# 库,可用于扩展 http 请求、内容处理和文件下载等功能,以及可以单独测试。