优采云采集器9.1版安装程序采集测试方法

优采云 发布时间: 2021-08-08 23:32

  优采云采集器9.1版安装程序采集测试方法

  5、采集Test:这是任何其他类似的采集 软件都无法比拟的。程序支持直接查看采集结果并测试发布。

  6、 管理方便:使用站点+任务模式管理采集节点,任务支持批量操作,无论管理多少数据都轻松。

  安装步骤首先下载安装包,运行安装“优采云采集器9.1版安装程序”

  

  选择安装位置

  

  注意:优采云采集器环境要求:您的电脑必须安装.net framework4.0框架,如果没有,您的电脑会弹出如下对话框,请点击“是”继续安装

  

  安装完成

  

  采集器tutorial1、new group--新任务

  2、添加网址+修改获取网址的规则

  选择ul中li中的链接,注意排除重复地址,可以点击下方测试网址采集获取。

  你可以看到采集的文章链接。

  3、采集内容规则

  我需要采集显示下图中的数据(catid是列id,可以把采集的数据放到对应的列中,设置一个固定值即可)

  关注内容和图片的采集,标题和描述与内容采集一致

  Content采集:

  打开采集的文章页面查看源码(可以禁止右键查看f11或者在URL前面添加view-source:):选择@开头的位置文章,并在 ctrl +f 搜索中截图,看看它是否是唯一的段落。如果是,可以放在下面的图1中,结尾和开头一样。不想抓取带有可用于数据处理的链接图片的内容,添加--html标签排除--选择确定--确定

  还有需要下载页面图片,勾选并填写以下选项

  图片采集:

  (1)所选范围与内容一致(文章内图片)

  (2)数据处理选择提取第一张图片,内容为:

  (3)只要aa.jpg,正则过滤,获取内容:aa.jpg

  (4)database 是带前缀存储的,添加,upload/xxxxx/

  找到一个页面并测试它。可以看到对应的物品都获得了。

  4、Publishing 内容设置,这里以发布到数据库的方式为例,编辑完成后返回这里查看刚刚定义的模块:

  5、我需要将图片保存到本地,并且需要设置保存文件的路径(ftp稍后会尝试使用)。

  6、Save,查看新创建的任务,右键启动任务,可以看到这里下载了文字和图片,在数据库中可以看到。

  更新日志 v9.9更新日志:(2019-7-04)

  1. 修复了采集 内容或网址错误导致程序退出的问题。

  2.下载文件和下载时由于文件地址错误导致程序退出的问题。

  3.使用插件时,用于测试发布的数据不是插件处理的数据中的bug。

  4.修复了智能提取时SY标签提取不正确的问题。

  5.列表页部分标签的情况,提示重复bug。

  6.分词或摘要中不存在标签时可能出错的bug。

  7.采集 时提供更详细的显示。更方便用户查看进度。

  8. 检测文件并下载并添加不区分大小写的功能。

  9.修复逆序发布时部分顺序不正确的问题。

  优采云采集器免费版 V9.6 更新日志 (2017-10-7)

  1、 调整了重排列表页的方式,现在只进行同级列表页之间的重排。

  2、新增任务完成后运行统计预警功能(邮件预警)【终极版功能】

  3、 增加了对一些返回码不是 200 的请求的支持,仍然是采集 配置。

  4、 支持将下载地址保存为html文件。

  5、二级代理服务,增加导入时的代理类型配置,同时修复用户名密码显示错误。

  6、发布配置页面。默认只显示当前选中的配置,加快任务加载速度。

  7、修复命令行控制,closeapp参数无法自动关闭程序的问题。

  8、修复未选择图片水印时图片无法裁剪的问题。

  9、优化启动界面的加载方式,解决初始界面冻结问题。

  10、修复“|”无法检测到图片下载的问题在配置多线连接器中。

  11、修复Excel导出数据时列顺序与字段顺序不一致的问题。

  12、修复Excel导出数据时部分字段收录数字的问题。

  13、修复了批量编辑任务时无法复制Json采集表达式的问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线