第2课：采集单个数据中，我们学习了如何操作

优采云发布时间: 2021-01-20 11:16

　　在第2课：采集单个数据中，我们学习了如何从单个网页获取文本，图片和超链接，并对优采云[自定义配置]任务采集的过程有初步了解。数据体验。本课将继续学习如何采集多个数据列表。

　　列表是最常见的网页样式之一。例如：京东产品清单，58个城市清单，豆瓣图书清单。简单配置后，优采云可以自动采集列表中的所有数据。

　　现在有一个收录豆瓣图书清单的网页：％E5％B0％8F％E8％AF％B4。网页上有许多具有相同结构的书单，并且每个书单具有相同的字段：书名，出版物信息，等级，评论数，书介绍等。

　　将鼠标移到图片上，右键单击并选择[在新选项卡中打开图片]以查看高清大图片

　　下面的其他图片也是如此

　　我们要根据网页的顺序采集将该网页中多个列表中的字段保存下来，并将其另存为Excel等结构化数据，如下图所示：

　　如何在优采云中执行此操作？范例网址：％E5％B0％8F％E8％AF％B4

　　一、智能识别

　　列出的网页，优采云支持智能识别。使用智能识别，只需输入URL，即可自动获取数据，并生成采集进程。

　　二、自配置采集进程

　　如果我想自己配置采集流程怎么办？以下是具体步骤：

　　步骤一、输入网址

　　在首页的[输入框]中输入目标URL，单击[开始采集]，优采云将自动打开网页。如果智能识别自动开始，请单击[不再自动识别]或[取消识别]。如果智能识别已关闭，请继续执行下一步。

　　步骤二、建立[循环提取数据]

　　观察网页。此页面上有很多书单。每个列表具有相同的结构，并收录诸如书名，出版物信息，等级，评论数量，书籍介绍等字段。最关键的是如何使优采云识别所有列表，并采集识别每个列表中的数据图书清单。

　　在优采云中，创建[循环提取数据]以实现此要求。 [Cycle-Extract数据]将包括所有书单，并且按顺序采集每个书单中的数据。对于列表类型的网页，需要采取特定步骤来建立[循环提取数据]。以下是具体步骤。

　　让我们首先看看建立[循环提取数据]的完整步骤：

　　分开每个步骤并详细说明：

　　1、在页面上选择一个书单。所选列表将以绿色框框起，同时将出现*敏*感*词*的操作提示框，提示我们找到[子元素]，其中[子元素]是图书列表中的特定字段。

　　特殊说明：

　　a。只需选择一个列表，数字就没有关系，第一个，第二个，第三个都没有关系。

　　b。选择列表时，请特别注意范围。所选范围（绿色部分）必须最大，包括所有字段均为采集。

　　2、在*敏*感*词*的操作提示框中，选择[选择子元素]。选择第一个产品列表中的特定字段。优采云目前发现页面上有许多相似的列表，它们具有相同的子元素（即字段）。

　　3、在*敏*感*词*的操作提示框中，继续选择[全选]。我们想要采集列表中的所有字段，因此选择[全选]，可以看到页面上同一列表中的所有子元素均已选中并带有绿色框。

　　4、在*敏*感*词*的操作提示框中，选择[采集数据]。此时，优采云提取列表中的所有字段。

　　特殊说明：

　　a。步骤1-4是连续的指令，只能在不中断的情况下建立。如果在页面上选择列表后没有出现1、 2、 [选定的子元素]，该怎么办？请向下滚动到文章末尾以查看解决方案。

　　完成上述4个步骤后，[循环提取数据]的创建完成。如您所见，流程图中会自动生成一个循环步骤。循环中的项目与页面上所有产品的列表相对应。循环中提取的数据中的字段与每个产品列表中的字段相对应。启动采集后，优采云将按顺序在循环中提取每个列表中的字段。

　　步骤3、修改字段

　　优采云自动为我们提取列表中的所有字段，并可以删除这些字段并修改字段名称。

　　将鼠标移至[提取列表数据]步骤，然后单击

　　按钮进入步骤设置页面。

　　移动到字段名称，您可以修改字段名称（该字段名称等效于excel标头）。

　　点击垃圾箱图标以删除不必要的字段。

　　步骤4、开始采集

　　1、单击[保存并开始]，然后选择[启动本地采集]。启动优采云后，将自动启动采集数据。（本地采集使用您自己的计算机作为采集，云采集使用由优采云提供的云服务器采集，请单击以获取具体说明）

　　完成2、采集后，选择适当的导出方法以导出数据。支持导出到Excel，CSV，HTML。在此处导出到Excel。

　　数据示例：

　　在步骤二、中，建立了[循环提取数据]，在1、选择页面上的列表之后，没有2、 [选择的子元素]解决方案：

　　示例网址：％25E8％2583％25A1％25E6％25AD％258C？topnav = 1＆wvr = 6＆b = 1

　　让我们首先看看建立[循环提取数据]的完整步骤：

　　分开每个步骤并详细说明：

　　1、选择页面上的第一个列表。

　　2、继续选择页面上的1个列表（目的是帮助优采云识别页面上的所有类似列表）。

　　3、在*敏*感*词*的操作提示框中，选择[采集数据]。列表中的所有字段都提取到一个单元格中。如果需要单独提取，请继续以下操作。

　　4、手动提取必填字段。确保从当前选择的列表中提取字段（用红色框框出）。否则，将重复提取第一个列表中的数据。

　　通过上述4个步骤，还可以创建[循环提取数据]。如您所见，流程图中会自动生成一个循环步骤。循环中的项目对应于页面上的所有微博列表。循环中提取的数据中的字段对应于每个微博列表中的字段。启动采集后，优采云将按顺序在循环中提取每个列表中的字段。

　　创建[循环提取数据]后，后续步骤与上述相同，因此我不再重复。

　　应采集列出数据，单击列表中的链接以进入详细信息页面，采集在详细信息页面中的数据，解决方法：

　　1、首先使用本课上面学习的方法来建立[循环提取数据]的步骤，首先提取列表数据

　　2、在循环的当前项目（带有红色框的框）中找到链接并选择它。在弹出的操作提示框中，选择[单击链接]。您会看到在此过程中生成了[click element]步骤，优采云自动跳转到详细信息页面，然后提取详细信息页面数据。

　　特殊说明：

　　a。请确保使用循环中当前项目的链接（如下图所示，当前项目将用红色框框起来）作为[单击元素]的步骤，否则，请单击链接反复。

0

2021-01-20

算法自动采集列表

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

第2课：采集单个数据中，我们学习了如何操作

0 个评论

发起人

AI时代内容工厂

第2课：采集单个数据中，我们学习了如何操作

0 个评论

发起人

相关问题