文章网址采集器(2021年优采云采集器V10.0版本更新内容及使用方法)
优采云 发布时间: 2021-10-26 07:11文章网址采集器(2021年优采云采集器V10.0版本更新内容及使用方法)
尊敬的用户:
为了给用户更好的采集体验,我们于2021年7月5日对优采云采集器进行了版本更新。目前优采云采集器V10.0版本已经正式上线。
更新内容
1、★其他标签的值可以称为数据获取中的拦截条件★
数据抽取方式支持调用其他标签值,使采集过程更加灵活。提取时点击标签符号可以调用其他标签的值。下面介绍它的使用方法:
我们以URL:为例,目的是提取sku对应的颜色名称,以一种颜色为例:
目标网站获取数据部分的源代码:
(1) 先获取颜色的sku值
(2)点击标签选择要调用的标签
以下是操作的结果:
注意:调用标签可以用于拦截前后和常规提取,使用方法相同。
2、★数据采集支持CSS选择器★
优采云采集器数据采集新增支持CSS选择器。许多网页都有独特的 css 属性。该功能更有利于批量提取网页数据。
如果想系统的学习css提取的知识,可以先看教程:。
优采云采集器集成了css提取功能,直接在界面中填写css路径即可使用。在Selector中填写css路径,节点属性选择需要采集的属性。
例如:
注意:使用css只能获取网页源代码中的元素。如果源码中没有css但是浏览器渲染后显示,则无法通过优采云采集器获取
3、★增加相关区域功能★
关联区域功能,可以先截取网页中指定区域的内容,然后将该区域作为数据源
执行采集 处理。
关联区的功能有利于分析重复的网页结构或复杂的网页形式和采集。
下面介绍相关区域功能的使用:
以 URL: 为例。比如我只想要2020年采集的下载链接,如果你直接循环采集,那么你会采集链接到其他年份,会干扰结果,所以我们可以使用关联区域指定采集的区域。
下面介绍具体的设置方法:
(1)添加关联区域
(2)在数据源中选择关联区域,然后按常规方式进行采集
采集 结果如下图。可以看到采集只在关联区域执行。
以上只是一个例子,还有其他适用的场景,可以在实际使用中灵活运用。
4、★批量URL增加间隔改变URL增加方法★
间隔变化的变化原理是:地址中的两个参数以固定的间隔递增,相邻两组值的结束值和起始值之间的间隔为1。变化的地址格式和这种形式的增长可以使用间隔变化来处理。
例如,以URL为例,我们使用fiddler抓取数据包的URL,修改如下:
第一页:
第二页:
第三页:
. . .
如下图,我们可以清楚地看到,在列表URL中,每页的起始值和结束值的差值是15,相邻页数,上一页的结束值的差值并且下一页的起始值为1。符合间隔变化规律。
因此,可以按照下图进行设置,更改的字段选择地址参数,起始值为[地址参数],结束值为[地址参数1],间隔步长使用地址参数之间的间隔数起始值和结束值。
然后将fiddler抓取的post值填入采集器,使用自动获取链接抓取列表页数据
注意:间隔更改不能与批处理URL中的其他方法混用,必须有两个地址参数
5、★在批量设置步骤中为新功能添加相关设置★
6、★运行统计日志设置增加默认关机功能★
7、★操作系统相关问题已修复★
8、★修复了URL空间问题导致列表页标签错误的问题★
9、★下载相关问题修复★
10、★修复“任务数据批处理”中空记录删除无效的问题★
11、★文件下载插件增加文件下载后处理接口★
感谢您的支持和使用,请支持小菜~
给小蔡一个小星星★
不错过任何最新资讯>v