网页文章自动采集(优采云采集器完美支持采集所有编码格式的网页,程序还可以自动识别网页编码)
优采云 发布时间: 2022-01-10 02:13网页文章自动采集(优采云采集器完美支持采集所有编码格式的网页,程序还可以自动识别网页编码)
优采云采集器是一个非常强大的数据采集器,完美支持采集所有编码格式的网页,程序还可以自动识别网页编码,还支持所有目前主流和非主流cms、BBS等网站节目都可以通过系统的发布模块实现采集器和网站节目的完美结合。
特征
1、通用
不管新闻、论坛、视频、黄页、图片、下载网站,只要是可以通过浏览器看到的结构化内容,通过指定匹配规则,就可以采集得到你想要的内容需要 。
2、稳定高效
五年磨一剑,软件不断更新完善,采集速度快,性能稳定,占用资源少。
3、扩展性强,应用广泛
自定义web发布,自定义主流数据库的保存和发布,自定义本地php和. net 外部编程接口来处理数据并使其可供您使用。
4、支持所有 网站 编码
完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。
5、各种发布方式
支持当前所有主流和非主流cms、BBS等网站节目,通过系统的发布模块可以实现采集器和网站节目的完美结合.
6、全自动
无人值守工作,配置程序后,程序会根据您的设置自动运行,无需人工干预。
7、本地编辑
采集 数据的本地可视化编辑。
8、采集测试
这是任何其他类似的采集软件都无法比拟的,并且该程序支持直接查看采集结果和测试发布。
9、易于管理
使用站点+任务模式管理采集节点,任务支持批量操作,管理更多数据轻松。
软件功能
1、规则自定义
所有网站采集几乎任何类型的信息都可以通过采集规则的定义进行搜索。
2、多任务、多线程
可以同时执行多个信息采集任务,每个任务可以使用多个线程。
3、所见即所得
任务采集流程是所见即所得,流程中遍历的链接信息、采集信息、错误信息等都会及时反映在软件界面中。
4、数据存储
数据自动保存到采集边缘的关系型数据库中,可以自动适配数据结构。软件可以根据采集规则自动创建数据库,以及里面的表和字段,也可以通过数据库灵活导入。将数据保存到客户现有的数据库结构中。
5、断点继续挖掘
INFO采集任务停止后可以从断点处恢复采集,因此您不再需要担心您的采集任务被意外中断。
6、网站登录
支持网站Cookies,支持网站可视化登录,甚至登录时需要验证码的网站也可以采集。
7、计划任务
此功能允许您的 采集 任务定期、定量或循环执行。
8、采集范围限制
采集 的范围可以根据采集 的深度和URL 的身份来限制。
9、文件下载
二进制文件(如:图片、音乐、软件、文档等)可以下载到本地磁盘或采集结果数据库。
10、结果替换
您可以根据规则将 采集 的结果替换为您定义的内容。
11、条件保存
您可以根据一定的条件决定保存哪些信息,过滤哪些信息。
12、过滤重复
软件可以根据用户设置和实际情况自动删除重复内容和重复网址。
13、特殊链接识别
使用此功能可以识别 Javascript 或其他更古怪的连接中动态生成的链接。
14、数据发布
采集 的结果数据可以通过自定义界面发布到任何内容管理系统和指定数据库。现在支持的目标发布媒体包括:数据库(access、sql server、mysql、oracle)、静态htm文件。
15、 预留编程接口
定义多种编程接口,用户可以在事件中使用PHP、C#语言进行编程,扩展采集的功能。
菜单功能
1、创建一个新组
新建一个任务组,选择所属的组,确定组名和备注。
2、新任务
确定自己所属的组,新建任务,填写任务名称保存。
3、网络发布配置
Web 发布配置定义了如何登录到 网站 并将数据提交到该 网站。
主要涉及登录信息的获取,网站编码设置,列列表的获取,使用数据测试发布效果。
4、网络发布模块
可以定义网站登录、获取列列表、获取网页随机值、内容发布参数、上传文件、构建发布数据等高级功能。
5、数据库发布配置
数据库发布配置定义了数据库链接信息的设置和数据库模块的选择。
6、数据库发布模块
用于编辑数据库的发布模块,以便我们可以将数据发布到配置的数据库。
优采云采集器可选择mysql、sqlserver、oracle、access四种数据库类型,在文本输入框中填写sql语句
(需要数据库知识),可以用标签来替换对应的数据。您还可以在 采集器modules 文件夹中加载要编辑的模块。
7、计划任务
设置列表中采集任务的启动时间表,可以是每个间隔,每天,每周,只有一次,也可以是自定义的Cron表达式,
(Cron 表达式的写法请参考相关术语的介绍)。保存设置后,即可根据设置执行任务。
8、插件管理
插件是可用于扩展 优采云采集器 功能的程序
优采云采集器V9支持三种插件:PHP源码、C#源码、C#类库。