最新采集器(2021年优采云采集器V10.0版本更新内容及使用方法)

优采云 发布时间: 2022-01-25 10:14

  最新采集器(2021年优采云采集器V10.0版本更新内容及使用方法)

  亲爱的用户:

  为了给用户更好的采集体验,2021年7月05日,我们进行了优采云采集器的版本更新,目前为优采云采集器V1 0.0 版本已经正式上线。

  更新内容

  1、★数据采集中,支持调用其他标签的值作为截取条件★

  数据提取方式支持调用其他标签值,使得采集过程更加灵活。提取时点击标签符号,调用其他标签的值。下面介绍如何使用它:

  我们以 URL: 为例,目的是提取 sku 对应的颜色名称,以一种颜色为例:

  目标网站获取数据部分的源码:

  

  (1)先获取颜色的sku值

  

  (2)点击标签选择要调用的标签

  

  以下是运行结果:

  

  注意:调用标签既可以用于前后拦截,也可以用于正则提取,使用方法相同。

  2、★数据采集支持CSS选择器★

  优采云采集器数据采集增加了对 CSS 选择器的支持。许多网页都有独特的 CSS 属性。该功能更有利于批量从网页中提取数据。

  如果想系统地学习css提取的知识,可以先阅读以下教程:.

  优采云采集器中集成了css提取功能,在界面中填写css路径即可直接使用。在Selector中填写CSS路径,节点属性选择需要采集的属性。

  例如:

  

  注意:css只能获取网页源代码中的元素。如果源码中没有css但是渲染后浏览器显示的css,则无法通过优采云采集器获取

  3、★新增相关区域功能★

  关联区域功能,可以先截取网页中指定区域的内容,然后将该区域作为数据源

  处理 采集。

  关联区域函数对于分析重复或复杂的网页表单和 采集 很有用。

  下面介绍关联面积函数的用法:

  以 URL: 为例,例如,您只想要 采集2020 中的下载链接。如果我们直接循环 采集,那么 采集 链接到其他年份会干扰结果,因此我们可以指定 采集 的区域与关联的区域。

  

  下面介绍具体的设置方法:

  (1)添加关联区域

  

  (2)选择数据源中的关联区域,然后按常规方式执行采集

  

  采集结果如下图,可见采集只在关联区域执行。

  

  以上为示例之一,实际使用中还有其他适用场景可以灵活运用。

  4、★批量更改间隔添加URL的附加方法★

  区间变化的变化原理是:地址中的两个参数以固定的间隔递增,相邻两组值的结束值和起始值的间隔为1。变化的地址格式和以这种形式增长可以使用区间变化。来处理。

  例如,以 URL 为例,我们使用 fiddler 捕获数据包 URL 变化如下:

  第一页:

  第二页:

  第三页:

  . . .

  如下图,我们可以清楚的看到,在列表URL中,每页的起始值和结束值的差是15,以及相邻页数、上一页的结束值和起始值下一页的值相差15 1,符合区间变化规律。

  

  因此,可以按照下图进行设置。改变的字段使用地址参数,起始值使用[地址参数],结束值使用[地址参数1],间隔步长使用起始值和结束值之间的间隔。

  

  然后将fiddler抓取的post值填入采集器,并使用自动获取链接抓取列表页数据

  

  

  注意:间隔更改不能与批量URL中的其他方法混用,并且必须有两个地址参数

  5、★批量设置步骤中新增功能相关设置★

  6、★运行统计日志设置增加默认关机功能★

  7、★修复Oss相关问题★

  8、★URL空间问题导致列表页标签错误问题修复★

  9、★下载相关bug修复★

  10、★修复“批量处理任务数据”删除空记录无效的问题★

  11、★文件下载插件增加文件下载后处理接口★

  感谢大家的支持和使用,以后也请多多支持小菜~

  

  给小彩一颗小星星

  不要错过任何更新>v

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线