文章采集软件免费版(优采云采集器9.1版安装程序采集测试方法)
优采云 发布时间: 2021-11-22 18:16文章采集软件免费版(优采云采集器9.1版安装程序采集测试方法)
5、采集测试:这是任何其他类似的采集软件都无法比拟的。程序支持直接查看采集结果和测试发布。
6、 管理便捷:使用站点+任务模式管理采集节点,任务支持批量操作,更轻松的数据管理。安装步骤 首先下载安装包,运行安装《优采云采集器9.1版安装程序》
选择安装位置
注意:优采云采集器环境要求:您的电脑必须安装.net框架4.0框架,如果没有,您的电脑会弹出如下对话框,请点击“是”继续安装
安装完成
采集器教程1、新建组--新建任务
2、添加URL + 编辑获取URL的规则
选择ul范围内li中的链接,注意排除重复地址。可以点击采集下方的测试网址获取。
可以看到有一个从采集到文章的链接。
3、采集内容规则
我需要采集显示下图中的数据(catid是列id,可以把采集中的数据放到对应的列中,设置一个固定值即可)
重点关注内容和图片采集,标题和描述与内容采集一致
内容采集:
打开采集的文章页面查看源码(可以右键查看f11或者在URL前面添加view-source:):选择<开头的位置@文章 并截图 一个段落是否是ctrl+f搜索下的唯一段落,如果是,可以放在下图1所示的位置,结尾和开头一样。不想截取带有数据可以处理的链接图片的内容,添加--html标签排除-选择确定-确定
还有需要下载页面图片,勾选并填写以下选项
图片采集:
(1)选择范围与内容相同(文章中的图片)
(2)数据处理选择提取第一张图片,内容为:
(3)只要aa.jpg,正则过滤,获取内容:aa.jpg
(4) 数据库存放有前缀,添加,upload/xxxxx/
找个页面测试一下,可以看到对应的项目都获取到了。
4、 发布内容设置,这里以发布到数据库的方式为例,编辑完成后返回这里查看新定义的模块:
5、我需要把图片保存到本地,还要设置保存文件的路径(ftp以后会尝试使用)。
6、保存,查看新创建的任务,右键启动任务,可以看到这里下载了文字和图片,在数据库中可以看到。更新日志v9.9更新日志:(2019-7-04)
1.修复了采集的内容或URL错误导致程序退出的问题。
2.下载文件和下载时,文件地址错误,程序退出。
3. 使用插件时,用于测试发布的数据不是插件处理的数据中的bug。
4.修复了智能提取时SY标签提取错误的问题。
5.列表页tab部分提示重复bug。
6.分词或摘要中不存在标签时可能出错的bug。
7. 在 采集 中提供更详细的显示。更方便用户查看进度。
8.检测文件并使用不区分大小写的功能下载它们。
9.修复逆序发布时部分顺序不正确的问题。
优采云采集器免费版V9.6 更新日志(2017-10-7)
1、 调整列表页面的重新排列方式,现在只在同一级别的列表页面之间进行重新排列。
2、增加任务完成后运行统计的警告功能(邮件警告)【终极版功能】
3、 增加了对一些返回码不是200的请求的支持,仍然执行采集的配置。
4、 新增支持将下载地址保存为html文件。
5、二级代理服务,增加导入时的代理类型配置,同时修复用户名密码显示错误。
6、发布配置页面,默认只显示当前选中的配置,加快任务加载时间。
7、修复命令行控制,closeapp参数无法自动关闭程序的问题。
8、修复未选择图片水印时图片无法裁剪的问题。
9、优化启动界面加载方式,解决初始界面卡顿问题。
10、修复“|”导致无法检测图片下载的问题 在配置多线连接器中。
11、修复Excel导出数据时列顺序与字段顺序不一致的问题。
12、修复Excel导出数据时部分字段收录数字的问题。
13、修复批量编辑任务时无法复制Json采集表达式的问题。