文章网址采集器(优采云有5种循环方式，它们是什么？)

优采云发布时间: 2021-12-15 18:18

　　问题：

　　优采云有5种循环方式，分别是什么？有什么不同？如何使用？

　　回答：

　　规则配置好后，优采云会自动执行数据采集。为了完全自动化，这个过程中有一个非常重要的步骤，那就是【循环】。

　　优采云有五种循环方式：URL列表/文本列表/单个元素/固定元素列表/非固定元素列表，每一种都有特定的使用场景。

　　一、URL 列表循环

　　适用场景：数据采集需要依次打开多个同类型网站。

　　实现方法：选择URL列表循环，将要打开的URL存放在URL列表循环中。启动采集后，优采云会在循环中按顺序打开URL获取数据采集。详见 URL 循环教程

　　二、文本列表循环

　　适用场景：需要在搜索框中输入多个关键词，然后采集每个关键词搜索结果数据。

　　实现方法：选择文本列表循环，将要查询的关键词存放在文本列表中，启动采集后，优采云会在循环中依次输入每个关键词@ . > 和采集其搜索结果。详见文本循环教程

　　三、单元素循环

　　适用场景：需要多次点击页面上的翻页按钮才能翻页。

　　实现方法：选择单个元素循环，在当前元素循环中保存翻页按钮的定位XPath，启动采集后，优采云会继续点击翻页按钮按顺序翻页在循环页面中。这里涉及到XPath知识，点击查看XPath教程

　　示例网址：

　　操作示例：

　　①选择【下一页】按钮→在操作提示框中选择【循环点击下一页】，建立翻页循环。

　　②优采云自动为我们选择循环模式【单元素循环】并生成翻页按钮的定位XPath。

　　四、固定元素列表

　　适用场景：网页中有很多与采集相似的数据项。比如在搜狗微信首页，就有20个类似的文章列表。

　　实现方法：选择固定元素列表循环，存储每个数据项的位置XPath（一个XPath对应一个数据项）。这里涉及到XPath知识，点击查看XPath教程

　　示例网址：

　　操作示例：

　　①选择一个文章链接→【全选】→【循环点击每个链接】创建循环列表。

　　②优采云自动为我们选择循环模式【固定元素列表】，为每个数据项生成定位XPath。有20个XPath，与页面上的20个文章链接一一对应。

　　五、非固定元素列表

　　适用场景：网页中有很多与采集相似的数据项。比如在搜狗微信首页，就有20个类似的文章列表。

　　实现方法：选择循环遍历非固定元素列表，通过通用定位XPath定位页面上的每个数据项。这里涉及到XPath知识，点击查看XPath教程

　　示例网址：

　　①选择文章列表→【选择子元素】→【全选】→【采集数据】创建循环列表。

　　②优采云自动为我们选择循环模式【非固定元素列表】，生成通用定位XPath定位页面上所有文章列表。

　　请注意：【固定元素列表】和【不固定元素列表】可以相互转换。

　　举个例子，在第四部分，生成的循环方法是【固定元素列表】，注意这些XPath：

　　//UL[@class='news-list']/LI[1]/DIV[2]/H3[1]/A[1]

　　//UL[@class='news-list']/LI[2]/DIV[2]/H3[1]/A[1]

　　......

　　//UL[@class='news-list']/LI[20]/DIV[2]/H3[1]/A[1]

　　这 20 个 XPath 具有相同的特征：只是 LI 后面的数字不同。根据这个特性，你可以写一个通用的XPath：//UL[@class='news-list']/LI/DIV[2]/H3[1]/A[1]，通过这个通用的Xpath，你可以找到页面上的所有 10 个文章链接。

　　将循环方式改为[Unfixed element list loop]，将通用的Xpath改为：//UL[@class='news-list']/LI/DIV[2]/H3[1]/A[1],Fill它在。

　　如您所见，此通用 XPath 定位页面上的所有 20 个文章链接。

　　同样，您也可以将非固定元素列表更改为固定元素列表。不再。

　　请注意：URL列表/文本列表/固定元素列表都可以拆分成云采集来加速采集。

　　详情请看：云采集原理与规则加速教程

0

2021-12-15

文章网址采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章网址采集器(优采云有5种循环方式，它们是什么？)

0 个评论

发起人

AI时代内容工厂

文章网址采集器(优采云有5种循环方式，它们是什么？)

0 个评论

发起人

相关问题