最新推出:优采云采集器免费版 V9.9

优采云 发布时间: 2020-10-29 12:02

  优采云采集器免费版V9.9

  5、采集测试:这是任何其他类似的采集软件所无法比拟的。该程序支持直接查看采集结果和测试版本。

  6、方便的管理:使用站点+任务模式来管理采集节点,任务支持批处理操作,无论进行多少数据管理,都很容易。

  安装过程首先下载安装包,运行安装程序“ 优采云采集器 9.版本1安装程序”

  

  选择安装位置

  

  注意:优采云采集器环境要求:您的计算机必须安装.net framework4.0框架,否则,计算机将弹出以下对话框,请单击“是”继续安装。

  

  安装完成

  

  采集器教程1、新组-新任务

  2、添加URL +编辑获取URL的规则

  在ul的li中选择链接,注意排除重复的地址,您可以单击下面的测试URL 采集进行获取。

  您会看到采集与文章之间存在链接。

  3、采集内容规则

  我需要采集在下图中显示数据(catid是列ID,您可以将采集中的数据放入相应的列中,只需设置一个固定值即可)

  关注内容和图片采集,标题和描述与内容采集相同

  内容采集:

  打开采集的文章页面并查看源代码(您可以通过右键单击f11进行查看,也可以在URL前面添加view-source :):在文章,并在ctrl + f中截取一段,以查看其是否为唯一段落。如果是这样,则可以将其放在下面的图1中,并且结尾与开头相同。我不想使用可以处理以进行数据处理的链接图像来捕获内容。添加--html标记排除-选择确定-确定

  还需要下载页面图片,检查并填写以下选项

  图片采集:

  ([1)所选范围与内容(文章中的图片)相同

  ([2)用于提取第一张图片的数据处理选项,内容为:

  ([3)只要aa.jpg,请定期过滤,即可获取内容:aa.jpg

  ([4)该数据库存储有前缀,将其添加,然后上载/ xxxxx /

  找到一个页面并进行测试,您可以看到所有对应的项目都已获得。

  4、发布内容设置,这里以发布到数据库为例,在编辑后,返回此处并检查刚刚定义的模块:

  5、我需要在本地保存图片,我需要设置保存文件的路径(ftp稍后将尝试使用它)。

  6、保存,查看新创建的任务,右键单击以启动该任务,您可以看到此处下载了文本和图片,并且可以在数据库中看到它们。

  更新日志v9.9更新日志:(2019-7-0 4)

  1.解决了采集内容或URL错误导致程序退出的问题。

  2.下载文件时由于错误的文件地址而导致程序退出的问题。

  3.使用该插件时用于测试发布的数据不是该插件处理的数据不是错误。

  4.解决了智能提取期间无法正确提取SY标签的问题。

  5.指示列表页面上部分标签中的重复错误。

  6.当分词或摘要中没有标签时,可能会导致错误的错误。

  7.在采集中提供更详细的显示。方便用户查看进度。

  8.使用不区分大小写的功能检测文件并下载。

  9.修复了反向发布时订单某些部分不正确的问题。

  优采云采集器免费版本V9.6更新日志(2017-10-7)

  1、调整重新排列列表页面的方式,现在它将仅在相同级别的列表页面之间排列重新排列。

  2、添加了预警功能,用于在任务完成后运行统计信息(电子邮件警告)[最终版本功能]

  3、当某些请求的返回码不是200时,增加了对采集的配置的支持。

  4、添加了将下载地址另存为html文件的支持。

  5、辅助代理服务,在导入时增加了代理类型的配置,并修复了用户名和密码的显示错误。

  6、发布配置页面,默认情况下仅显示当前选择的配置,从而加快了任务加载时间。

  7、修复了命令行控件的closeapp参数无法自动关闭程序的问题。

  8、解决了未选择图片水印时无法裁剪图片的问题。

  9、优化启动界面的加载方法,以解决初始界面冻结的问题。

  10、修复了由于“ |”而无法检测到图像下载的问题在配置多线连接器中。

  1 1、解决了Excel导出数据时列顺序与字段顺序不一致的问题。

  1 2、解决了从Excel导出数据时某些字段收录数字的问题。

  1 3、解决了在批量编辑任务期间无法复制Json 采集表达式的问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线