优采云采集器9.1版安装程序采集测试方法
优采云 发布时间: 2021-08-08 23:32优采云采集器9.1版安装程序采集测试方法
5、采集Test:这是任何其他类似的采集 软件都无法比拟的。程序支持直接查看采集结果并测试发布。
6、 管理方便:使用站点+任务模式管理采集节点,任务支持批量操作,无论管理多少数据都轻松。
安装步骤首先下载安装包,运行安装“优采云采集器9.1版安装程序”
选择安装位置
注意:优采云采集器环境要求:您的电脑必须安装.net framework4.0框架,如果没有,您的电脑会弹出如下对话框,请点击“是”继续安装
安装完成
采集器tutorial1、new group--新任务
2、添加网址+修改获取网址的规则
选择ul中li中的链接,注意排除重复地址,可以点击下方测试网址采集获取。
你可以看到采集的文章链接。
3、采集内容规则
我需要采集显示下图中的数据(catid是列id,可以把采集的数据放到对应的列中,设置一个固定值即可)
关注内容和图片的采集,标题和描述与内容采集一致
Content采集:
打开采集的文章页面查看源码(可以禁止右键查看f11或者在URL前面添加view-source:):选择@开头的位置文章,并在 ctrl +f 搜索中截图,看看它是否是唯一的段落。如果是,可以放在下面的图1中,结尾和开头一样。不想抓取带有可用于数据处理的链接图片的内容,添加--html标签排除--选择确定--确定
还有需要下载页面图片,勾选并填写以下选项
图片采集:
(1)所选范围与内容一致(文章内图片)
(2)数据处理选择提取第一张图片,内容为:
(3)只要aa.jpg,正则过滤,获取内容:aa.jpg
(4)database 是带前缀存储的,添加,upload/xxxxx/
找到一个页面并测试它。可以看到对应的物品都获得了。
4、Publishing 内容设置,这里以发布到数据库的方式为例,编辑完成后返回这里查看刚刚定义的模块:
5、我需要将图片保存到本地,并且需要设置保存文件的路径(ftp稍后会尝试使用)。
6、Save,查看新创建的任务,右键启动任务,可以看到这里下载了文字和图片,在数据库中可以看到。
更新日志 v9.9更新日志:(2019-7-04)
1. 修复了采集 内容或网址错误导致程序退出的问题。
2.下载文件和下载时由于文件地址错误导致程序退出的问题。
3.使用插件时,用于测试发布的数据不是插件处理的数据中的bug。
4.修复了智能提取时SY标签提取不正确的问题。
5.列表页部分标签的情况,提示重复bug。
6.分词或摘要中不存在标签时可能出错的bug。
7.采集 时提供更详细的显示。更方便用户查看进度。
8. 检测文件并下载并添加不区分大小写的功能。
9.修复逆序发布时部分顺序不正确的问题。
优采云采集器免费版 V9.6 更新日志 (2017-10-7)
1、 调整了重排列表页的方式,现在只进行同级列表页之间的重排。
2、新增任务完成后运行统计预警功能(邮件预警)【终极版功能】
3、 增加了对一些返回码不是 200 的请求的支持,仍然是采集 配置。
4、 支持将下载地址保存为html文件。
5、二级代理服务,增加导入时的代理类型配置,同时修复用户名密码显示错误。
6、发布配置页面。默认只显示当前选中的配置,加快任务加载速度。
7、修复命令行控制,closeapp参数无法自动关闭程序的问题。
8、修复未选择图片水印时图片无法裁剪的问题。
9、优化启动界面的加载方式,解决初始界面冻结问题。
10、修复“|”无法检测到图片下载的问题在配置多线连接器中。
11、修复Excel导出数据时列顺序与字段顺序不一致的问题。
12、修复Excel导出数据时部分字段收录数字的问题。
13、修复了批量编辑任务时无法复制Json采集表达式的问题。