丰富的采集神器(优采云中创建循环列表有两种方式，一种鱼自动创建)

优采云发布时间: 2022-02-06 14:17

　　在优采云中，创建循环列表有两种方式，一种是点击页面元素，选择相似项，由优采云自动创建。适用于列表信息采集、列表和详细信息页面采集。当自动创建的循环不能满足需求时，我们需要手动创建或修改循环以满足更多数据的需求采集。

　　在循环的高级选项中，有五种循环方式：URL循环、文本循环、单元素循环、固定元素列表循环和非固定元素列表循环。

　　一、URL循环（云采集可以加速）

　　适用场景：同类型的多个网页中，网页结构要相同

　　详情请看URL循环教程

　　二、文本循环（云采集加速）

　　适用场景：在搜索框中循环输入关键词、采集关键词的搜索结果信息

　　实现方法：通过文本循环方式，循环输入关键词、采集关键词的搜索结果。

　　详情请看文本循环教程

　　三、单元素循环

　　适用场景：需要循环浏览页面上的某个按钮。例如：循环点击“下一步”按钮翻页。

　　实现方法：通过单元素循环，达到循环点击“下一页”按钮翻页的目的。

　　定位方法：使用XPath定位，始终定位到“下一页”按钮。

　　示例网址：

　　操作示例：

　　①选择“下一页”按钮→选择“循环点击下一页”，创建翻页循环。

　　② 循环方式为“单元素循环”。通过在“单元素循环”中定位XPath，点击“下一页”按钮进行翻页。

　　详细请看分页列表信息采集教程

　　四、固定元素列表循环（云采集用于加速）

　　适用性：网页中采集的行数是固定的。

　　实现方法：通过固定元素列表循环遍历页面中的固定元素。

　　定位方法：使用XPath定位，一个XPath对应循环列表中的一个元素。

　　示例网址：

　　操作示例：

　　①选择一个文章链接→“全选”→“循环点击每个链接”，创建一个循环列表。

　　② 自动生成的循环为：固定元素列表。打开固定元素列表查看，20个XPath，一一对应循环列表中固定的20个元素（也可以看成是浏览器页面对应的20个文章链接）。

　　这里涉及到XPath相关内容，可以参考这篇XPath教程

　　五、未固定的元素列表循环

　　适用性：网页中采集的行数不是固定的。

　　实现方法：循环遍历非固定因子列表，循环页面中的非固定元素。

　　定位方式：使用XPath定位，一个XPath对应循环列表中的多个元素。

　　示例网址：

　　操作示例：

　　① 通过观察优采云固定元素列表的循环中生成的XPath：

　　//UL[@class='news-list']/LI[1]/DIV[2]/H3[1]/A[1]

　　//UL[@class='news-list']/LI[2]/DIV[2]/H3[1]/A[1]

　　……

　　//UL[@class='news-list']/LI[20]/DIV[2]/H3[1]/A[1]

　　20 个 XPath 具有相同的特点：只是 LI 后面的数字不同。根据这个特性，我们可以写一个通用的XPath：//UL[@class='news-list']/LI/DIV[2]/H3[1]/A[1]，通过这个通用的Xpath，我们可以定位到页面中的所有 10 个文章链接。

　　将循环模式更改为“未固定元素列表循环”并填写修改后的XPath。

　　② 可以看出，这个通用的XPath对应了循环列表中的所有20个元素（也可以看成是浏览器页面对应的20个文章链接）。

　　同理，也可以将非固定元素列表变为固定元素列表。

　　这里涉及XPath相关内容，请参考XPath教程

0

2022-02-06

丰富的采集神器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

丰富的采集神器(优采云中创建循环列表有两种方式，一种鱼自动创建)

0 个评论

发起人

AI时代内容工厂

丰富的采集神器(优采云中创建循环列表有两种方式，一种鱼自动创建)

0 个评论

发起人

相关问题