Ajax延时加载最明显的两个特征点击网页中某个选项

优采云 发布时间: 2021-08-09 04:33

  Ajax延时加载最明显的两个特征点击网页中某个选项

  本文将向您介绍如何使用优采云采集器采集page 列表页上的信息,同时也会向您解释ajax 延迟设置。目的是让大家知道如何创建翻页循环和正常的采集网页数据信息。

  首先打开优采云采集器→点击快速启动→新建任务,进入任务配置页面:

  

  选择任务组,自定义任务名称和备注;

  

  上图中的配置完成后,选择Next,进入流程配置页面,在流程设计器中拖动一步打开网页;

  

  选择在浏览器中打开网页的步骤,在右侧的网页网址中输入网页网址并点击保存,系统会在软件下自动在浏览器中打开相应的网页:

  

  创建一个循环来翻页。在上图浏览器页面点击下一步按钮,在弹出的对话框中选择循环点击下一页;

  

  翻页循环创建后,点击下图中的保存;

  

  这里的翻页其实涉及到ajax延迟加载。 Ajax 异步更新实际上是一种脚本技术。通过在后台与服务器交换少量数据,意味着无需重新加载整个网页即可更新网页。待更新。

  Ajax 延迟加载最明显的两个特点是,当你点击网页上的一个选项时,URL 根本不会改变,然后网页并没有完全加载,而只是部分改变。如果满足这两个特性,就是一个ajax网页。或者稍后进行采集测试时,进程直接停止或者在运行前提示采集已成功完成。这基本上是由这个问题引起的。原因是优采云的内置浏览器打开这个网页翻页时,由于URL没有变化但是部分内容更新了,所以收不到网页变化的信号,导致采集停止或采集 没有数据。

  所以如下图所示,需要在点击翻页的高级设置中设置ajax加载。这个时候点击翻页是自己估计的。完成点击步骤大约需要两秒钟。

  

  在上面的浏览器中,您可以看到网页由相同区域的行组成。我们需要抓取每个区域行中的数据信息,每个区域块中的格式是相同的。这时候就需要创建一个循环列表来循环抓取每个区域行中的元素。

  点击上图中第一个区域行,在弹出的对话框中选择创建元素列表处理一组元素;

  

  接下来在弹出的对话框中选择添加到列表中

  

  添加第一个区域行后,选择继续编辑列表。

  

  接下来,以同样的方式添加第二个区域行。

  

  当我们添加第二个区域行时,您可以查看上图。此时,页面上的其他元素已经添加。这是因为我们添加了两个具有相似特征的元素,系统会智能地在页面上添加其他具有相似特征的元素。然后选择创建列表完成→点击下图中的循环

  经过以上操作,采集list的循环就完成了。系统会在页面右上角显示该页面添加的所有循环项。

  

  因为每个页面都需要循环采集数据,所以我们需要把这个循环列表拖入翻页循环中。

  注意流程是从上一页开始执行的,所以这个循环列表需要放在点击翻页之前,否则会漏掉第一页的数据。最终流程图如下所示:

  

  接下来要提取数据字段,在上面的流程设计器中点击提取数据,然后在浏览器中选择要提取的字段,然后在弹出的选择对话框中选择该元素的文本;

  

  完成以上操作后,系统会在页面右上角显示我们要爬取的字段;

  

  接下来在页面上配置其他需要抓取的字段,配置完成后修改字段名称;

  

  修改完成后,点击上图中的保存按钮,然后点击图中的数据字段,可以看到系统会显示最终的采集列表;

  

  点击Next→Next→启动上图中的单机采集(调试模式),进入任务检查页面,确保任务的正确性;

  

  点击启动单机采集,系统会在本地执行采集进程并显示最终的采集结果;

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线