【通讯技术】网站采集测试(一)——
优采云 发布时间: 2021-04-03 03:22【通讯技术】网站采集测试(一)——
8、 采集测试:这是任何其他类似的采集软件所无法比拟的。该程序支持直接查看采集结果和测试版本。
9、方便的管理:使用站点+任务模式来管理采集节点,任务支持批处理操作,并且不容易进行大量数据管理。
[功能介绍]
1、规则自定义-通过采集规则的定义,您可以搜索几乎所有网站 采集类型的信息。
2、多任务,多线程,多信息采集任务可以同时执行,每个任务可以使用多个线程。
3、所见即所得-任务采集所见即所得,过程中遍历的链接信息,采集信息,错误消息等将及时反映在软件界面中。
4、在采集时,数据存储数据自动保存到关系数据库中,并且可以自动调整数据结构。该软件可以根据采集规则以及其中的表和字段自动创建数据库,也可以通过引导数据库的方式灵活地将数据保存到客户现有的数据库结构中。
5、断点恢复信息采集可以在任务停止采集之后从断点恢复该任务,从现在开始,您不必担心采集任务被意外中断。
6、 网站登录支持网站 Cookie,支持网站可视登录,即使网站在登录时需要验证码也可以是采集。
7、计划任务-此功能可让您的采集任务定期,定量或循环执行。
8、 采集范围限制-可以根据采集的深度和URL的徽标来限制采集的范围。
9、文件下载-可以将采集中的二进制文件(例如图片,音乐,软件,文档等)下载到本地磁盘或采集结果数据库中。
1 0、结果替换-您可以根据规则用您定义的内容替换采集的结果。
1 1、有条件保存-可以根据特定条件决定要存储和过滤哪些信息。
1 2、过滤重复的内容-该软件可以根据用户设置和实际情况自动删除重复的内容和重复的URL。
1 3、特殊链接识别-使用此功能可以识别由JavaScript动态生成的链接或其他怪异链接。
1 4、数据发布-您可以通过自定义界面将采集的结果数据发布到任何内容管理系统和指定的数据库。当前支持的目标发布媒体包括:数据库(访问,SQL Server,我的SQL,Oracle),静态htm文件。
1 5、保留的编程接口-定义多个编程接口,用户可以在事件中使用PHP,C#语言进行编程,扩展采集的功能。
[更新内容]
V 9. 4:
1,批处理URL更新,日期可以支持比今天更大的数据。可以使用多个参数同步更改标签
2,标记组合,添加对循环组合的支持。
3,优化了重新设置URL库的逻辑,大大加快了大型URL库下的任务加载速度,并优化了重新设置URL库的内存使用。
4,数据库发布模块,添加了对“插入忽略”模式的支持
5,添加了任务的云备份和同步功能