网站采集工具(强壮的网站登录收集、多页和插件撑持的基本介绍)
优采云 发布时间: 2022-02-28 08:03网站采集工具(强壮的网站登录收集、多页和插件撑持的基本介绍)
优采云采集器下载()是一个专业强大的网络数据和信息挖掘网页采集器,通过灵活的设备,你可以轻松地从网页中抓取文字等任何资源、图像、文档等。
【基本介绍】
程序支持远程下载图片文件,支持网站登录后信息采集,支持探索文件真实地址,支持代理,支持采集防盗链,支持采集数据直接存储在数据库中,并通过模仿人类技术发布,以及许多其他功能特性。
优采云采集器支持从任意类型的网站中采集你需要的信息,如各种新闻类网站、论坛、电商网站、求职网站 等等。
同时具有强大的网站登录采集、多页分页采集、网站跨层采集、POST采集、脚本页面采集、动态页面采集等高级采集功能。
强大的php和c#插件支持,让你通过二次开发完成任何你想要的更强大的功能。
【软件特色】
1、通用
不管是新闻、论坛、视频、黄页、图片、下载网站,你只需要传递浏览器可以看到的布局内容,并指定匹配规则来采集你需要的内容。
2、稳定高效
五年磨一剑,软件不断更新进阶,采集速度快,功能稳定,资源消耗小。
3、扩展性强,应用广泛
定制化web发布,定制化主流数据库保留与发布,定制化本地php和.net对外编程接口处理数据,让数据为你所用。
【基本功能】
1、规则定制——通过网络规则的定义,几乎可以在所有网站集合中找到任何类型的信息。
2、多任务,多线程——可以同时执行多个信息采集任务,每个任务可以使用多个线程。
3、所见即所得——所见即所得,在任务采集过程中,所遍历的连接信息、采集信息、错误信息等都会体现在软件界面中及时。
4、数据保留——数据在采集时自动存入联系人数据库,数据结构可自动调整。软件可以根据采集规则,以及里面的表和字段自动创建数据库,也可以通过数据库引导的方式灵活的创建。将数据保留在客户已有的数据库布局中。
5、Breakpoint Continuation - 信息采集任务停止后可以从断点继续采集,不再担心采集任务被意外中断。
6、网站登录——支持网站cookies,支持网站可视化登录,即使网站登录时需要验证码,也可以采集。
7、预定任务 - 通过此功能,您的网络任务可以准时、定量或连续地执行。
8、Collect Size Constraints - 能够根据集合的深度和 URL 的 ID 来限制集合的大小。
9、文件下载 - 能够将采集的二进制文件(例如:图像、音乐、软件、文档等)下载到本地磁盘或采集数据库。
10、结果替换——可以根据规则将采集到的结果替换为自己定义的内容。
11、条件保留 - 能够根据特定条件决定保留哪些信息以及过滤哪些信息。
12、过滤重复内容——软件可以根据用户设置和实际情况自动删除重复内容和重复网址。
13、特殊链接识别 - 使用此功能来识别使用 JavaScript 动态生成的链接或其他更特殊的链接。
14、数据发布——可以通过自定义界面将采集到的结果数据发布到任何内容管理系统和指定数据库。目前支持的目标发布媒体包括:数据库(access、sql server、mysql、oracle)、静态htm文件。
15、预留编程接口——定义多个编程接口,用户可以在工作中使用PHP、C#语言进行编程,扩展网络功能。
【特征】
1、Supports all网站Encodings:完全支持所有编码格式的页面集合,程序可以自动识别页面编码。
2、多种发布方式:支持当前所有主流和非主流cms、BBS等网站节目,通过系统的发布模块,采集器与网站的连接程序可以完成完整的联系。
3、完全主动:无人值守,程序装好后,程序会根据你的设置自动运行,完全无需人工干预。
4、局部校正:采集数据的局部视觉校正。
5、网络测试:这是其他同类网络软件无法比拟的,程序支持直接查看网络结果和测试发布。
6、管理方便:使用站点+任务的方式管理网络节点,任务支持批量操作,再多的数据也不容易管理。
【更新日志】
v8.3
1.采集器全面支持64位操作系统
2.改变程序安装方式,使用安装包
3.使用用户名确定免费和商业版本
4.软件不再需要管理员权限才能启动
5.任务完成后增加数据增量导出功能
6.删除内置翻译,默认使用谷歌翻译
优采云采集器v8版本是对v7版本的严重优化升级。该版本修复了v7的诸多问题,增加了更多的扩展,更方便用户开发。新版本旨在更丰富、更易用,为新老用户提供非常好的服务。以下是新版本的新增功能和修正问题。
V8 版本新增功能
1.增加了发布扩展功能,开发了很多cms的发布扩展
2.增加远程网络规则获取和更新功能,用户可以搭建自己的规则服务器,向客户提供网络规则
3.增加更多使用扩展,如电商计算、极速搜索、论坛采集器、微博数据助手等。
4.二级代理增加了页面缓存功能,方便在短时间内采集到同一个页面。
5.添加自定义语法以启动 URL 以生成更复杂的 URL
6.集成谷歌、必应、有道翻译成中英翻译模块
7.添加原生库转换时保留数据选项
8.POST集合网址有一些添加文本导入搜索词功能
9.增加网盘上传功能,一个文本可以同时上传多个网盘
10.添加将EXCEL数据导入采集器的功能
11.POST 获取 URL 和一些添加函数来修改标题
12.支持ftp下载文件
13.添加了在标签处理中运行C#代码的功能
14.任务搜索功能增加群组搜索
15. 更正测验发布,添加到库并使用扩展测验发布
16.增加了复制设备的右键菜单,用于存储和网络发布
17.系统托盘增加显示当前程序运行目录的功能
18.Local Replacement 添加选项以选择性地操作整个数据库
19.优采云采集器任务右键菜单增加shift键功能
在 V8 版本中更正的错误
1.处理关闭并重新打开资源管理器后无法找到采集器图标的问题
2.处理获取内容失败的bug。url地址中的数字
3. 更正爬取多页时UserAgent不一致导致cookie失效
4.修正多页爬取时间网站自动识别编码选择多页URL编码不一致导致多页返回乱码问题
5.解决部分mysql数据库无法获取列表的问题
6.修复二级代理中部分代理无效的问题
7.修正图片下载地址不收录<必须收录条件无效的bug
4.处理打开程序报错问题,软件界面图片显示红叉