最新推出:优采云采集器免费版 V9.9
优采云 发布时间: 2020-10-29 12:02优采云采集器免费版V9.9
5、采集测试:这是任何其他类似的采集软件所无法比拟的。该程序支持直接查看采集结果和测试版本。
6、方便的管理:使用站点+任务模式来管理采集节点,任务支持批处理操作,无论进行多少数据管理,都很容易。
安装过程首先下载安装包,运行安装程序“ 优采云采集器 9.版本1安装程序”
选择安装位置
注意:优采云采集器环境要求:您的计算机必须安装.net framework4.0框架,否则,计算机将弹出以下对话框,请单击“是”继续安装。
安装完成
采集器教程1、新组-新任务
2、添加URL +编辑获取URL的规则
在ul的li中选择链接,注意排除重复的地址,您可以单击下面的测试URL 采集进行获取。
您会看到采集与文章之间存在链接。
3、采集内容规则
我需要采集在下图中显示数据(catid是列ID,您可以将采集中的数据放入相应的列中,只需设置一个固定值即可)
关注内容和图片采集,标题和描述与内容采集相同
内容采集:
打开采集的文章页面并查看源代码(您可以通过右键单击f11进行查看,也可以在URL前面添加view-source :):在文章,并在ctrl + f中截取一段,以查看其是否为唯一段落。如果是这样,则可以将其放在下面的图1中,并且结尾与开头相同。我不想使用可以处理以进行数据处理的链接图像来捕获内容。添加--html标记排除-选择确定-确定
还需要下载页面图片,检查并填写以下选项
图片采集:
([1)所选范围与内容(文章中的图片)相同
([2)用于提取第一张图片的数据处理选项,内容为:
([3)只要aa.jpg,请定期过滤,即可获取内容:aa.jpg
([4)该数据库存储有前缀,将其添加,然后上载/ xxxxx /
找到一个页面并进行测试,您可以看到所有对应的项目都已获得。
4、发布内容设置,这里以发布到数据库为例,在编辑后,返回此处并检查刚刚定义的模块:
5、我需要在本地保存图片,我需要设置保存文件的路径(ftp稍后将尝试使用它)。
6、保存,查看新创建的任务,右键单击以启动该任务,您可以看到此处下载了文本和图片,并且可以在数据库中看到它们。
更新日志v9.9更新日志:(2019-7-0 4)
1.解决了采集内容或URL错误导致程序退出的问题。
2.下载文件时由于错误的文件地址而导致程序退出的问题。
3.使用该插件时用于测试发布的数据不是该插件处理的数据不是错误。
4.解决了智能提取期间无法正确提取SY标签的问题。
5.指示列表页面上部分标签中的重复错误。
6.当分词或摘要中没有标签时,可能会导致错误的错误。
7.在采集中提供更详细的显示。方便用户查看进度。
8.使用不区分大小写的功能检测文件并下载。
9.修复了反向发布时订单某些部分不正确的问题。
优采云采集器免费版本V9.6更新日志(2017-10-7)
1、调整重新排列列表页面的方式,现在它将仅在相同级别的列表页面之间排列重新排列。
2、添加了预警功能,用于在任务完成后运行统计信息(电子邮件警告)[最终版本功能]
3、当某些请求的返回码不是200时,增加了对采集的配置的支持。
4、添加了将下载地址另存为html文件的支持。
5、辅助代理服务,在导入时增加了代理类型的配置,并修复了用户名和密码的显示错误。
6、发布配置页面,默认情况下仅显示当前选择的配置,从而加快了任务加载时间。
7、修复了命令行控件的closeapp参数无法自动关闭程序的问题。
8、解决了未选择图片水印时无法裁剪图片的问题。
9、优化启动界面的加载方法,以解决初始界面冻结的问题。
10、修复了由于“ |”而无法检测到图像下载的问题在配置多线连接器中。
1 1、解决了Excel导出数据时列顺序与字段顺序不一致的问题。
1 2、解决了从Excel导出数据时某些字段收录数字的问题。
1 3、解决了在批量编辑任务期间无法复制Json 采集表达式的问题。