第2课:采集单个数据中,我们学习了如何操作

优采云 发布时间: 2021-01-20 11:16

  第2课:采集单个数据中,我们学习了如何操作

  在第2课:采集单个数据中,我们学习了如何从单个网页获取文本,图片和超链接,并对优采云[自定义配置]任务采集的过程有初步了解。数据体验。本课将继续学习如何采集多个数据列表。

  列表是最常见的网页样式之一。例如:京东产品清单,58个城市清单,豆瓣图书清单。简单配置后,优采云可以自动采集列表中的所有数据。

  现在有一个收录豆瓣图书清单的网页:%E5%B0%8F%E8%AF%B4。网页上有许多具有相同结构的书单,并且每个书单具有相同的字段:书名,出版物信息,等级,评论数,书介绍等。

  

  将鼠标移到图片上,右键单击并选择[在新选项卡中打开图片]以查看高清大图片

  下面的其他图片也是如此

  我们要根据网页的顺序采集将该网页中多个列表中的字段保存下来,并将其另存为Excel等结构化数据,如下图所示:

  

  如何在优采云中执行此操作?范例网址:%E5%B0%8F%E8%AF%B4

  一、智能识别

  列出的网页,优采云支持智能识别。使用智能识别,只需输入URL,即可自动获取数据,并生成采集进程。

  二、自配置采集进程

  如果我想自己配置采集流程怎么办?以下是具体步骤:

  步骤一、输入网址

  在首页的[输入框]中输入目标URL,单击[开始采集],优采云将自动打开网页。如果智能识别自动开始,请单击[不再自动识别]或[取消识别]。如果智能识别已关闭,请继续执行下一步。

  

  步骤二、建立[循环提取数据]

  观察网页。此页面上有很多书单。每个列表具有相同的结构,并收录诸如书名,出版物信息,等级,评论数量,书籍介绍等字段。最关键的是如何使优采云识别所有列表,并采集识别每个列表中的数据图书清单。

  在优采云中,创建[循环提取数据]以实现此要求。 [Cycle-Extract数据]将包括所有书单,并且按顺序采集每个书单中的数据。对于列表类型的网页,需要采取特定步骤来建立[循环提取数据]。以下是具体步骤。

  让我们首先看看建立[循环提取数据]的完整步骤:

  

  分开每个步骤并详细说明:

  1、在页面上选择一个书单。所选列表将以绿色框框起,同时将出现*敏*感*词*的操作提示框,提示我们找到[子元素],其中[子元素]是图书列表中的特定字段。

  

  特殊说明:

  a。只需选择一个列表,数字就没有关系,第一个,第二个,第三个都没有关系。

  b。选择列表时,请特别注意范围。所选范围(绿色部分)必须最大,包括所有字段均为采集。

  

  2、在*敏*感*词*的操作提示框中,选择[选择子元素]。选择第一个产品列表中的特定字段。 优采云目前发现页面上有许多相似的列表,它们具有相同的子元素(即字段)。

  

  3、在*敏*感*词*的操作提示框中,继续选择[全选]。我们想要采集列表中的所有字段,因此选择[全选],可以看到页面上同一列表中的所有子元素均已选中并带有绿色框。

  

  4、在*敏*感*词*的操作提示框中,选择[采集数据]。此时,优采云提取列表中的所有字段。

  

  特殊说明:

  a。步骤1-4是连续的指令,只能在不中断的情况下建立。如果在页面上选择列表后没有出现1、 2、 [选定的子元素],该怎么办?请向下滚动到文章末尾以查看解决方案。

  完成上述4个步骤后,[循环提取数据]的创建完成。如您所见,流程图中会自动生成一个循环步骤。循环中的项目与页面上所有产品的列表相对应。循环中提取的数据中的字段与每个产品列表中的字段相对应。启动采集后,优采云将按顺序在循环中提取每个列表中的字段。

  步骤3、修改字段

  优采云自动为我们提取列表中的所有字段,并可以删除这些字段并修改字段名称。

  将鼠标移至[提取列表数据]步骤,然后单击

  

  按钮进入步骤设置页面。

  移动到字段名称,您可以修改字段名称(该字段名称等效于excel标头)。

  点击垃圾箱图标以删除不必要的字段。

  

  步骤4、开始采集

  1、单击[保存并开始],然后选择[启动本地采集]。启动优采云后,将自动启动采集数据。 (本地采集使用您自己的计算机作为采集,云采集使用由优采云提供的云服务器采集,请单击以获取具体说明)

  

  完成2、 采集后,选择适当的导出方法以导出数据。支持导出到Excel,CSV,HTML。在此处导出到Excel。

  

  数据示例:

  

  在步骤二、中,建立了[循环提取数据],在1、选择页面上的列表之后,没有2、 [选择的子元素]解决方案:

  示例网址:%25E8%2583%25A1%25E6%25AD%258C?topnav = 1&wvr = 6&b = 1

  让我们首先看看建立[循环提取数据]的完整步骤:

  

  分开每个步骤并详细说明:

  1、选择页面上的第一个列表。

  2、继续选择页面上的1个列表(目的是帮助优采云识别页面上的所有类似列表)。

  3、在*敏*感*词*的操作提示框中,选择[采集数据]。列表中的所有字段都提取到一个单元格中。如果需要单独提取,请继续以下操作。

  4、手动提取必填字段。确保从当前选择的列表中提取字段(用红色框框出)。否则,将重复提取第一个列表中的数据。

  

  通过上述4个步骤,还可以创建[循环提取数据]。如您所见,流程图中会自动生成一个循环步骤。循环中的项目对应于页面上的所有微博列表。循环中提取的数据中的字段对应于每个微博列表中的字段。启动采集后,优采云将按顺序在循环中提取每个列表中的字段。

  

  创建[循环提取数据]后,后续步骤与上述相同,因此我不再重复。

  应采集列出数据,单击列表中的链接以进入详细信息页面,采集在详细信息页面中的数据,解决方法:

  1、首先使用本课上面学习的方法来建立[循环提取数据]的步骤,首先提取列表数据

  2、在循环的当前项目(带有红色框的框)中找到链接并选择它。在弹出的操作提示框中,选择[单击链接]。您会看到在此过程中生成了[click element]步骤,优采云自动跳转到详细信息页面,然后提取详细信息页面数据。

  

  特殊说明:

  a。请确保使用循环中当前项目的链接(如下图所示,当前项目将用红色框框起来)作为[单击元素]的步骤,否则,请单击链接反复。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线