文章网址采集器(优采云有5种循环方式,它们是什么?)
优采云 发布时间: 2021-12-15 18:18文章网址采集器(优采云有5种循环方式,它们是什么?)
问题:
优采云 有5种循环方式,分别是什么?有什么不同?如何使用?
回答:
规则配置好后,优采云会自动执行数据采集。为了完全自动化,这个过程中有一个非常重要的步骤,那就是【循环】。
优采云 有五种循环方式:URL列表/文本列表/单个元素/固定元素列表/非固定元素列表,每一种都有特定的使用场景。
一、URL 列表循环
适用场景:数据采集需要依次打开多个同类型网站。
实现方法:选择URL列表循环,将要打开的URL存放在URL列表循环中。启动采集后,优采云会在循环中按顺序打开URL获取数据采集。详见 URL 循环教程
二、文本列表循环
适用场景:需要在搜索框中输入多个关键词,然后采集每个关键词搜索结果数据。
实现方法:选择文本列表循环,将要查询的关键词存放在文本列表中,启动采集后,优采云会在循环中依次输入每个关键词@ . > 和 采集 其搜索结果。详见文本循环教程
三、单元素循环
适用场景:需要多次点击页面上的翻页按钮才能翻页。
实现方法:选择单个元素循环,在当前元素循环中保存翻页按钮的定位XPath,启动采集后,优采云会继续点击翻页按钮按顺序翻页在循环页面中。这里涉及到XPath知识,点击查看XPath教程
示例网址:
操作示例:
①选择【下一页】按钮→在操作提示框中选择【循环点击下一页】,建立翻页循环。
②优采云自动为我们选择循环模式【单元素循环】并生成翻页按钮的定位XPath。
四、固定元素列表
适用场景:网页中有很多与采集相似的数据项。比如在搜狗微信首页,就有20个类似的文章列表。
实现方法:选择固定元素列表循环,存储每个数据项的位置XPath(一个XPath对应一个数据项)。这里涉及到XPath知识,点击查看XPath教程
示例网址:
操作示例:
①选择一个文章链接→【全选】→【循环点击每个链接】创建循环列表。
②优采云自动为我们选择循环模式【固定元素列表】,为每个数据项生成定位XPath。有20个XPath,与页面上的20个文章链接一一对应。
五、非固定元素列表
适用场景:网页中有很多与采集相似的数据项。比如在搜狗微信首页,就有20个类似的文章列表。
实现方法:选择循环遍历非固定元素列表,通过通用定位XPath定位页面上的每个数据项。这里涉及到XPath知识,点击查看XPath教程
示例网址:
①选择文章列表→【选择子元素】→【全选】→【采集数据】创建循环列表。
②优采云自动为我们选择循环模式【非固定元素列表】,生成通用定位XPath定位页面上所有文章列表。
请注意:【固定元素列表】和【不固定元素列表】可以相互转换。
举个例子,在第四部分,生成的循环方法是【固定元素列表】,注意这些XPath:
//UL[@class='news-list']/LI[1]/DIV[2]/H3[1]/A[1]
//UL[@class='news-list']/LI[2]/DIV[2]/H3[1]/A[1]
......
//UL[@class='news-list']/LI[20]/DIV[2]/H3[1]/A[1]
这 20 个 XPath 具有相同的特征:只是 LI 后面的数字不同。根据这个特性,你可以写一个通用的XPath://UL[@class='news-list']/LI/DIV[2]/H3[1]/A[1],通过这个通用的Xpath,你可以找到页面上的所有 10 个 文章 链接。
将循环方式改为[Unfixed element list loop],将通用的Xpath改为://UL[@class='news-list']/LI/DIV[2]/H3[1]/A[1],Fill它在。
如您所见,此通用 XPath 定位页面上的所有 20 个 文章 链接。
同样,您也可以将非固定元素列表更改为固定元素列表。不再。
请注意:URL列表/文本列表/固定元素列表都可以拆分成云采集来加速采集。
详情请看:云采集原理与规则加速教程