优采云采集器免费版 V9.9

优采云 发布时间: 2020-08-27 17:28

  优采云采集器免费版 V9.9

  5、采集测试:这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。

  6、管理便捷:使用站点+任务形式管理采集节点,任务支持批量操作,再多的数据管理也太轻松。

  安装步骤首先下载安装包,运行安装“优采云采集器9.1版安装程序”

  

  选择安装地址

  

  注意:优采云采集器环境要求:您的笔记本必须安装.net framework4.0框架,如果没有,你的笔记本会弹出以下对话框,请点击“是”以继续安装

  

  安装完成

  

  采集器教程1、新建分组--新建任务

  2、添加网址+ 编辑获取网址的规则

  选择范围在 ul 里面的 li 里面的链接,注意排除重复地址,可以点击下边测试网址采集获取。

  可以见到有采集到的文章链接了。

  3、采集内容规则

  我那边须要采集下面图上展示数据(catid是栏目id,可以将采集到的数据装入对应栏目,设置固定值就好)

  着重说下内容和图片的采集,标题和描述同理内容采集

  内容采集:

  打开一个采集的文章页面,查看源代码(禁了右键的f11 或者在网址后面加上 view-source: 一样可以查看):选中文章开头一个位置,截取一段在ctrl+f 搜下是否惟一一段,若是就可以放到位置右图1处,结尾同开头一样。我截取内容不想上面还带有链接图片可以数据处理,添加--html标签排除--选好确定--确定

  还有须要下载页面图片,勾选和填写下边选项

  图片采集:

  (1)选中范围和内容一样(文章内图片)

  (2)数据处理选 提取第一张图片,内容是:

  (3)只要aa.jpg,正则过滤,获取内容:aa.jpg

  (4)数据库储存有前缀,添加上, upload/xxxxx/

  找一个页面测试一下,可以看见对应项目都获取到了。

  4、发布内容设置,这里以形式三发布到数据库为反例,编辑后回到那边勾选刚定义的模块就好:

  5、我需要保存图片到本地,要设置下保存文件的路径(ftp后续会试着使用)。

  6、保存,查看刚新建的任务,右键 开始任务运行,这边就可以看见文字和图片都下载出来了,数据库上面也可以见到了。

  更新日志v9.9更新日志:(2019-7-04)

  1.修复了采集内容或网址时出错造成程序退出的问题.

  2.下载文件并下载时文件地址错误造成程序退出的问题.

  3.使用插件时测试发布使用的数据不是插件处理后的数据的bug.

  4.修正了一个智能提取时SY标签提取错误的问题.

  5.列表页标签部份情况下提示重复的bug.

  6.在动词或摘要时不存在某个标签时可能出错的bug.

  7.在采集时提供了更多的细节显示.更方便用户查看进度.

  8.探测文件并下载给加了不分辨大小写功能.

  9.修复逆序发布时部份顺序不对的问题.

  优采云采集器免费版 V9.6 更新日志(2017-10-7)

  1、调整列表页排重的形式,现在仅会在同级列表页之间进行排重。

  2、增加对于任务运行完毕以后的运行统计的预警功能(Email电邮预警)【旗舰版功能】

  3、新增支持对于一些恳求返回码不为200时,仍然进行采集的配置。

  4、新增支持将下载地址保存为html文件的功能。

  5、二次代理服务,增加导出的时侯配置代理类型,同时修补对于用户名密码的显示错误问题。

  6、发布配置页面,默认仅显示当前选择配置,加快任务加载时间。

  7、修复命令行控制,closeapp参数难以手动关掉程序的问题。

  8、修复在未选择图片水印时,无法进行图片裁剪的问题。

  9、优化开始界面加载形式,解决初始化界面卡顿的问题。

  10、修复在配置多行连接符收录“|”导致的难以侦测图片下载的问题。

  11、修复Excel导入数据时,列的次序与数组次序不一致的问题。

  12、修复Excel导入数据时,一些收录数字的数组的导入数据错误问题。

  13、修复任务批量编辑时,Json采集表达式无法复制的问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线