内容采集器(本次更新究竟新增了哪些好用的功能?(一))

优采云 发布时间: 2021-09-29 04:10

  内容采集器(本次更新究竟新增了哪些好用的功能?(一))

  优采云采集器我前段时间把版本升级到了V10。在广大用户的期待下,本次升级更新内容非常多,更新的功能都是大家期待已久的功能。那么这次更新增加了哪些有用的功能呢?让我们在这里详细讨论一下。一些不重要的功能可以参考优采云采集器官网更新文档。

  第一种:批量增加网址增加间隔变化的方法

  间隔变化的变化原理是:地址中的两个参数以固定的间隔增长,相邻两组值的结束值和起始值之间的间隔为1。变化的地址格式和这种形式的增长可以使用间隔变化来处理。一般用户可能会觉得难以理解这种设置方法。如果处理不了,可以在文章下评论,站长会帮你解答。

  例如,以URL为例,我们使用fiddler抓取数据包的URL,修改如下:

  第一页:

  第二页:

  第三页:

  . . .

  如下图,我们可以清楚地看到,在列表URL中,每页的起始值和结束值的差值是15,相邻页数,上一页的结束值的差值并且下一页的起始值为1。符合间隔变化规律。

  

  因此,您可以按照下图进行设置。更改的字段选择地址参数,起始值使用[地址参数],结束值使用[地址参数1],间隔步长使用起始值和结束值之间的间隔数。

  

  注意:间隔更改不能与批处理URL中的其他方法混用,必须有两个地址参数

  第二个:数据采集支持CSS选择器

  优采云采集器数据采集新增支持CSS选择器。许多网页都有独特的 css 属性。该功能更有利于批量提取网页数据。

  如果想系统的学习css提取的知识,可以先看教程:。

  优采云采集器集成了css提取功能,直接在界面中填写css路径即可使用。在Selector中填写css路径,节点属性选择需要采集的属性。

  例如:

  

  注意:使用css只能获取网页源代码中的元素。如果源码中没有css但是浏览器渲染后显示,则无法通过优采云采集器获取

  第三:支持调用其他标签的值作为数据采集的拦截条件

  数据抽取方式支持调用其他标签值,使采集过程更加灵活。提取时点击标签符号可以调用其他标签的值。下面介绍它的使用方法:

  我们以URL:为例,目的是提取sku对应的颜色名称,以一种颜色为例:

  目标网站获取数据部分的源代码:

  

  

  注意:调用标签可以用于拦截前后和正则提取,使用方法相同。

  第四:增加关联区域的功能

  关联区域功能,可以先截取网页中指定区域的内容,然后将该区域作为数据源

  执行采集 处理。

  关联区的功能有利于分析重复的网页结构或复杂的网页形式和采集。

  下面介绍相关区域功能的使用:

  以 URL: 为例。比如我只想要2020年采集的下载链接,如果直接循环采集,那么会采集链接到其他年份,会干扰结果,所以我们可以使用关联区域指定采集的区域。

  

  下面介绍具体的设置方法:

  (1)添加关联区域

  

  (2)在数据源中选择关联区域,然后按常规方式进行采集

  

  这次优采云采集器V10,新增的主要功能就是以上四个,还有很多其他的小功能比如:批量设置步骤添加新功能相关设置,运行统计日志设置添加默认关闭功能。还对存在的问题进行了一些修复:oss相关问题、URL空白导致列表页面标签错误、下载插件增加了文件下载后处理接口等。

  如果还有其他问题,可以来本站搜索相关问题,这里有你想要的答案:优采云脚本网

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线