优采云中创建循环列表的五大循环方式
优采云 发布时间: 2021-08-09 04:37优采云中创建循环列表的五大循环方式
在优采云中,有两种方法可以创建循环列表。一种是点击页面元素,选择相似项,由优采云自动创建。适用于列表信息采集、列表和详情页采集。当自动创建的循环不能满足需求时,我们需要手动创建或修改循环以满足更多数据采集的需求。
在循环的高级选项中,有五种循环方式:URL循环、文本循环、单元素循环、固定元素列表循环、非固定元素列表循环。
一、URL 循环(cloud采集 可以加速)
适用情况:在多个同类型网页中,网页结构必须相同
二、text loop(cloud采集可以加速)
适用场景:在搜索框中循环输入关键词、采集关键词搜索结果信息
实现方法:通过文本循环方法,实现循环输入关键词、采集关键词搜索结果。
三、单元素循环
适用场景:需要反复点击页面上的某个按钮。例如:点击“下一页”按钮进行翻页。
实现方法:通过单元素循环方法,达到反复点击“下一页”按钮翻页的目的。
定位方法:使用XPath定位,一直定位到“下一页”按钮。
操作示例:
①选择“下一页”按钮→选择“循环点击下一页”建立翻页循环。
②循环方式为“单元素循环”,通过在“单元素循环”中定位XPath,点击“下一页”按钮进行翻页。
四、固定元素列表循环(cloud采集可以加速)
适用情况:网页采集行数为固定数。
如何实现:循环固定元素列表,循环页面中的固定元素。
定位方法:使用XPath定位,一个XPath对应循环列表中的一个元素。
操作示例:
①选择文章链接→“全选”→“循环点击每个链接”创建循环列表。
② 自动生成的循环方式为:固定元素列表。打开固定元素列表查看,20个XPath与循环列表中的20个固定元素一一对应(也可以看作是浏览器页面对应的20个文章链接)。
此处涉及XPath相关内容,请参考本XPath教程
五、非固定元素列表循环
适用情况:网页上采集所需的行数不是固定的。
实现方法:循环变量因子列表,循环页面中的变量元素。
定位方法:使用XPath定位,一个XPath对应循环列表中的多个元素。
操作示例:
①通过观察优采云fixed元素列表循环中生成的XPath:
//UL[@class='news-list']/LI[1]/DIV[2]/H3[1]/A[1]
//UL[@class='news-list']/LI[2]/DIV[2]/H3[1]/A[1]
......
//UL[@class='news-list']/LI[20]/DIV[2]/H3[1]/A[1]
20 个 XPath 具有相同的特征:只有 LI 后面的数字不同。根据这个特性,我们可以写一个通用的XPath://UL[@class='news-list']/LI/DIV[2]/H3[1]/A[1],通过这个通用的Xpath,你可以找到转到页面上的所有 10 个文章 链接。
将循环方式改为“不固定元素列表循环”,并填写修改后的XPath。
②可以看出,这个通用的XPath对应了循环列表中的全部20个元素(也可以看作是浏览器页面对应的20个文章链接)。
同样的,你也可以将非固定元素列表改为固定元素列表。
此处涉及XPath相关内容,请参考XPath教程