自动采集子系统(如何使用优采云 采集器采集这种类型网页里面详细信息页面数据 )

优采云 发布时间: 2021-12-25 21:07

  自动采集子系统(如何使用优采云

采集器采集这种类型网页里面详细信息页面数据

)

  很多网站都有这种模式,一个列表页面,点击列表中的一行链接会打开一个详细信息页面,本文教你如何使用优采云

采集

器来采集

这类网站的详细信息page 页的数据。

  首先打开优采云

采集

器→点击快速启动→新建任务,进入任务配置页面:

  

  选择任务组,自定义任务名称和备注;

  

  上图中的配置完成后,选择Next,进入流程配置页面,在流程设计器中拖动一步打开网页;

  

  选择在浏览器中打开网页的步骤,在右侧的网页网址中输入网页网址并点击保存,系统会自动在软件下的浏览器中打开对应的网页:

  

  选择在浏览器中打开网页的步骤,在右侧的网页网址中输入网页网址并点击保存,系统会自动在软件下的浏览器中打开对应的网页:

  

  由于我们需要如上图在浏览器中点击电影名称,然后在子页面中提取数据信息,所以我们需要制作一个循环采集

列表。

  点击上图中第一个循环项,在弹出的对话框中选择创建元素列表来处理一组元素;

  

  接下来,在弹出的对话框中,选择添加到列表

  

  添加第一个循环项后,选择继续编辑列表。

  

  接下来,以相同的方式添加第二个循环项。

  

  当我们添加第二个区域块时,我们可以查看上图。此时,页面上的其他元素已经添加。这是因为我们添加了两个具有相似特征的元素,系统会智能地在页面上添加其他具有相似特征的元素。然后选择创建列表完成→点击下图中的循环

  

  经过以上操作,循环采集

列表就完成了。系统会在页面右上角显示该页面添加的所有循环项。

  

  选择上图中第一个循环项,然后选择click元素。进入第一个子链接。

  

  接下来,我们将提取数据字段。在浏览器中选择需要提取的字段,然后在弹出的选择对话框中选择抓取该元素的文本;

  

  完成以上操作后,系统会在页面右上角显示我们要抓取的字段;

  

  接下来在页面上配置其他需要抓取的字段,配置完成后修改字段名称;

  

  修改完成后,点击上图中的保存按钮,然后点击图中的数据字段,可以看到系统会显示最终的采集

列表;

  

  点击上图中的下一步→下一步→开始单机采集(调试模式),进入任务检查页面,确保任务的正确性;

  

  点击 开始单机采集,系统将在本地执行采集过程并显示最终采集结果;

  

  如果我们需要导出最终采集的数据信息,点击下图中的导出按钮,选择需要导出的文件类型。系统会提示保存路径,选择保存路径,系统会自动导出文件。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线