优采云中创建循环列表的五大循环方式

优采云 发布时间: 2021-08-09 04:37

  优采云中创建循环列表的五大循环方式

  在优采云中,有两种方法可以创建循环列表。一种是点击页面元素,选择相似项,由优采云自动创建。适用于列表信息采集、列表和详情页采集。当自动创建的循环不能满足需求时,我们需要手动创建或修改循环以满足更多数据采集的需求。

  在循环的高级选项中,有五种循环方式:URL循环、文本循环、单元素循环、固定元素列表循环、非固定元素列表循环。

  一、URL 循环(cloud采集 可以加速)

  适用情况:在多个同类型网页中,网页结构必须相同

  二、text loop(cloud采集可以加速)

  适用场景:在搜索框中循环输入关键词、采集关键词搜索结果信息

  实现方法:通过文本循环方法,实现循环输入关键词、采集关键词搜索结果。

  三、单元素循环

  适用场景:需要反复点击页面上的某个按钮。例如:点击“下一页”按钮进行翻页。

  实现方法:通过单元素循环方法,达到反复点击“下一页”按钮翻页的目的。

  定位方法:使用XPath定位,一直定位到“下一页”按钮。

  操作示例:

  ①选择“下一页”按钮→选择“循环点击下一页”建立翻页循环。

  

  ②循环方式为“单元素循环”,通过在“单元素循环”中定位XPath,点击“下一页”按钮进行翻页。

  

  四、固定元素列表循环(cloud采集可以加速)

  适用情况:网页采集行数为固定数。

  如何实现:循环固定元素列表,循环页面中的固定元素。

  定位方法:使用XPath定位,一个XPath对应循环列表中的一个元素。

  操作示例:

  ①选择文章链接→“全选”→“循环点击每个链接”创建循环列表。

  

  ② 自动生成的循环方式为:固定元素列表。打开固定元素列表查看,20个XPath与循环列表中的20个固定元素一一对应(也可以看作是浏览器页面对应的20个文章链接)。

  

  此处涉及XPath相关内容,请参考本XPath教程

  五、非固定元素列表循环

  适用情况:网页上采集所需的行数不是固定的。

  实现方法:循环变量因子列表,循环页面中的变量元素。

  定位方法:使用XPath定位,一个XPath对应循环列表中的多个元素。

  操作示例:

  ①通过观察优采云fixed元素列表循环中生成的XPath:

  //UL[@class='news-list']/LI[1]/DIV[2]/H3[1]/A[1]

  //UL[@class='news-list']/LI[2]/DIV[2]/H3[1]/A[1]

  ......

  //UL[@class='news-list']/LI[20]/DIV[2]/H3[1]/A[1]

  20 个 XPath 具有相同的特征:只有 LI 后面的数字不同。根据这个特性,我们可以写一个通用的XPath://UL[@class='news-list']/LI/DIV[2]/H3[1]/A[1],通过这个通用的Xpath,你可以找到转到页面上的所有 10 个文章 链接。

  将循环方式改为“不固定元素列表循环”,并填写修改后的XPath。

  

  ②可以看出,这个通用的XPath对应了循环列表中的全部20个元素(也可以看作是浏览器页面对应的20个文章链接)。

  

  同样的,你也可以将非固定元素列表改为固定元素列表。

  此处涉及XPath相关内容,请参考XPath教程

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线