网页表格抓取(如何使用优采云采集器采集单网页上的表格信息? )

优采云 发布时间: 2022-03-01 04:10

  网页表格抓取(如何使用优采云采集器采集单网页上的表格信息?

)

  今天小编就给大家介绍一下优采云采集器采集单个网页的表单信息的使用方法。目的是让你知道如何处理表单类型的网页。我们来看看吧。

  首先打开优采云采集器→点击快速启动→新建任务进入任务配置页面:

  

  选择任务组,自定义任务名称和备注;

  

  上图配置完成后,选择Next,进入流程配置页面,拖拽一个步骤打开网页进入流程设计器;

  

  选择在浏览器中打开网页的步骤,在右侧页面网址中输入网页网址并点击保存,系统会在软件下方的浏览器中自动打开相应网页:

  

  在上面的浏览器中,可以看到网页都是由同一个区域行组成的。我们需要捕获每个区域行中的数据信息,每个区域块行的格式都是一样的。这时候,我们需要创建一个循环列表来循环遍历每个区域行中的元素。

  请注意,最终提取的元素必须收录在循环项中

  点击上图中的第一个区域行,可以看到下图浏览器中的红色虚线框选中了整个区域行。如果没有选中,可以在弹出的选择对话框上方的放大选项中进行调整。. 调整好后,选择创建元素列表来处理一组元素;

  

  接下来,在弹出的对话框中,选择添加到列表

  

  添加第一区域行后,选择继续编辑列表。

  

  接下来以相同的方式添加第二个区域行。

  

  当我们添加第二个区域行时,我们可以看上图。此时,页面中的其他元素被添加。这是因为我们在添加两个具有相似特征的元素,系统会在页面中智能添加其他具有相似特征的元素。然后选择创建列表完成→点击下图中的循环

  

  经过以上操作,循环采集列表就完成了。系统会在页面右上角显示该页面添加的所有循环项。

  

  接下来,提取数据字段,点击上图中的第一个循环项,然后在流程设计器中点击提取数据,然后在浏览器中选择要提取的字段,然后在弹出的窗口中选择抓取这个元素选择对话框。文本;

  完成上述操作后,系统会在页面右上角显示我们要抓取的字段;

  

  接下来配置页面上需要抓取的其他字段,配置完成后修改字段名称;

  

  修改完成后,点击上图中的保存按钮,然后点击图中的数据字段,可以看到系统会显示最终的采集列表;

  

  点击上图中的Next→Next→Start Standalone采集(调试模式)进入任务检查页面,保证任务的正确性;

  

  点击Start Standalone采集,系统会在本地执行采集进程并显示最终的采集结果;

  

  如果我们需要导出最终的采集数据信息,点击下图中的导出按钮,选择要导出的文件类型,系统会提示保存路径,选择保存路径,系统会自动导出文件。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线