丰富的采集神器(优采云中创建循环列表有两种方式,一种鱼自动创建)
优采云 发布时间: 2022-02-06 14:17丰富的采集神器(优采云中创建循环列表有两种方式,一种鱼自动创建)
在优采云中,创建循环列表有两种方式,一种是点击页面元素,选择相似项,由优采云自动创建。适用于列表信息采集、列表和详细信息页面采集。当自动创建的循环不能满足需求时,我们需要手动创建或修改循环以满足更多数据的需求采集。
在循环的高级选项中,有五种循环方式:URL循环、文本循环、单元素循环、固定元素列表循环和非固定元素列表循环。
一、URL循环(云采集可以加速)
适用场景:同类型的多个网页中,网页结构要相同
详情请看URL循环教程
二、文本循环(云采集加速)
适用场景:在搜索框中循环输入关键词、采集关键词的搜索结果信息
实现方法:通过文本循环方式,循环输入关键词、采集关键词的搜索结果。
详情请看文本循环教程
三、单元素循环
适用场景:需要循环浏览页面上的某个按钮。例如:循环点击“下一步”按钮翻页。
实现方法:通过单元素循环,达到循环点击“下一页”按钮翻页的目的。
定位方法:使用XPath定位,始终定位到“下一页”按钮。
示例网址:
操作示例:
①选择“下一页”按钮→选择“循环点击下一页”,创建翻页循环。
② 循环方式为“单元素循环”。通过在“单元素循环”中定位XPath,点击“下一页”按钮进行翻页。
详细请看分页列表信息采集教程
四、固定元素列表循环(云采集 用于加速)
适用性:网页中采集的行数是固定的。
实现方法:通过固定元素列表循环遍历页面中的固定元素。
定位方法:使用XPath定位,一个XPath对应循环列表中的一个元素。
示例网址:
操作示例:
①选择一个文章链接→“全选”→“循环点击每个链接”,创建一个循环列表。
② 自动生成的循环为:固定元素列表。打开固定元素列表查看,20个XPath,一一对应循环列表中固定的20个元素(也可以看成是浏览器页面对应的20个文章链接)。
这里涉及到XPath相关内容,可以参考这篇XPath教程
五、未固定的元素列表循环
适用性:网页中采集的行数不是固定的。
实现方法:循环遍历非固定因子列表,循环页面中的非固定元素。
定位方式:使用XPath定位,一个XPath对应循环列表中的多个元素。
示例网址:
操作示例:
① 通过观察优采云固定元素列表的循环中生成的XPath:
//UL[@class='news-list']/LI[1]/DIV[2]/H3[1]/A[1]
//UL[@class='news-list']/LI[2]/DIV[2]/H3[1]/A[1]
……
//UL[@class='news-list']/LI[20]/DIV[2]/H3[1]/A[1]
20 个 XPath 具有相同的特点:只是 LI 后面的数字不同。根据这个特性,我们可以写一个通用的XPath://UL[@class='news-list']/LI/DIV[2]/H3[1]/A[1],通过这个通用的Xpath,我们可以定位到页面中的所有 10 个 文章 链接。
将循环模式更改为“未固定元素列表循环”并填写修改后的XPath。
② 可以看出,这个通用的XPath对应了循环列表中的所有20个元素(也可以看成是浏览器页面对应的20个文章链接)。
同理,也可以将非固定元素列表变为固定元素列表。
这里涉及XPath相关内容,请参考XPath教程