免费文章采集工具(优采云采集器9.1版安装程序采集测试方法)

优采云 发布时间: 2022-01-22 14:01

  免费文章采集工具(优采云采集器9.1版安装程序采集测试方法)

  5、采集测试:这是任何其他类似的采集软件都无法比拟的。该程序支持直接查看采集结果和测试发布。

  6、易管理:使用站点+任务模式管理采集节点,任务支持批量操作,管理更多数据轻松。

  安装步骤首先下载安装包,运行安装“优采云采集器9.Version 1 installer”

  

  选择安装位置

  

  注意:优采云采集器环境要求:你的电脑必须安装.net framework4.0 framework,如果没有,你的电脑会弹出如下对话框,请点击“是”继续安装

  

  安装完成

  

  采集器教程1、新建组--新建任务

  2、添加 URL + 编辑获取 URL 的规则

  选择ul中li中的链接,注意排除重复地址,可以点击下方测试URL采集获取。

  您可以看到 文章 链接到 采集。

  3、采集内容规则

  我需要采集来显示下图中的数据(catid是列id,可以把采集中的数据放到对应列中,设置一个固定值即可)

  关注内容和图片的采集,标题和描述同内容采集

  内容采集:

  打开一个采集的文章页面,查看源码(如果禁用了右键f11或者在url前面加了view-source:可以查看):选择一个位置在 文章 的开头并截取一个段落是否是 ctrl+f 搜索下的唯一段落,如果是,则可以放在下图 1 中的位置,结尾与开头相同。我不想截取内容,不想在里面有链接图片进行数据处理,添加--html标签排除--选择确定--确定

  还有一个需要下载页面图片,勾选并填写以下选项

  图片 采集:

  (1)选中范围与内容一致(文章中的图片)

  (2)数据处理选择提取第一张图片,内容为:

  (3)只要aa.jpg,常规过滤,获取内容:aa.jpg

  (4)数据库存储有前缀,添加,上传/xxxxx/

  找个页面测试一下,可以看到获取到了对应的item。

  4、发布内容设置,这里以模式3发布到数据库为例,编辑好后返回查看新定义的模块:

  5、我需要将图片保存到本地,需要设置保存文件的路径(ftp稍后会尝试使用)。

  6、保存,查看新创建的任务,右键启动任务,这里可以看到已经下载了文字和图片,在数据库中也可以看到。

  变更日志 v9.9 变更日志:(2019-7-04)

  1.修复了由于 采集 内容或 URL 错误导致程序退出的问题。

  2.下载文件,文件地址错误导致下载时程序退出。

  3.使用插件时,用于测试和发布的数据不是插件处理的数据的bug。

  4.修复了智能提取时SY标签被错误提取的问题。

  5.列表页标签部分提示重复的bug。

  6.分词或摘要时某个标签不存在时可能出错的bug。

  7.在采集 时提供更详细的显示。更方便用户查看进度。

  8.检测文件并在不区分大小写的情况下下载。

  9.修复逆序发布时部分顺序不正确的问题。

  优采云采集器免费版 V9.6 更新日志 (2017-10-7)

  1、调整列表页的重新排列方式,现在只会在同级列表页之间重新排列。

  2、增加任务完成后运行统计的警告功能(Email邮件警告)【终极版功能】

  3、增加了对部分请求返回码不是200时配置采集的支持。

  4、添加了将下载地址保存为 html 文件的支持。

  5、二级代理服务,导入时添加代理类型,修复用户名密码显示错误。

  6、发布配置页面,默认只显示当前选择的配置,加快任务加载时间。

  7、修复命令行控制,closeapp参数无法自动关闭程序的问题。

  8、修复未选中图片水印时无法裁剪图片的问题。

  9、优化启动界面的加载方式,解决初始化界面卡死的问题。

  10、修复多行连接符收录“|”时无法检测到图片下载的问题 在配置中。

  11、修复Excel导出数据时列顺序与字段顺序不一致的问题。

  12、修复Excel导出数据时,部分收录数字的字段导出数据不正确的问题。

  13、修复批量编辑任务时无法复制Json采集表达式的问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线