V10及更高数据管家——增强版网络爬虫老版本对应教程

优采云发布时间: 2021-05-16 20:18

　　支持的软件版本：V10和更高版本的Data Manager-Enhanced Web Crawler

　　对应的旧版本教程：V9和更低版本。 Jishouke网络抓取工具的相应教程为“ 采集网页数据”

　　下载并安装了Data Manager之后，我们在Data Manager的浏览器中打开采集页面，单击页面上的鼠标，并将内容标记为采集。此过程称为：使用视觉注释方法定义采集器规则。在本文中，任务和规则是指采集器规则。

　　注意：本文介绍的视觉注释适用于采集网页上可以看到的内容。如果采集的内容未直接显示在网页上，例如超链接的URL，或者无法用视觉注释准确地标记，则可以使用“内容映射”中说明的方法。

　　1.步骤（观看视频）

　　下面以京东网站为例，向您展示如何使用视觉标记的方法定义采集的规则。步骤如下：

　　2.详细的操作步骤

　　采集规则：京东数据管家列表的演示规则（点击下载此规则）

　　示例网址：％E5％86％B0％E7％AE％B1＆enc = utf-8＆wq =％E5％86％B0％E7％AE％B1＆pvid = 2879721c10d54340a16491de943d6886

　　采集内容：网页上第一个产品的产品标题，价格，评论数和商店名称

　　第1步：打开网页

　　1. 1，加载网页并查看内容为采集

　　打开数据管理器，输入采集的URL，然后按Enter。加载网页后，首先观察采集的内容是否已完全加载。有些网页很长。如果要在网页底部显示采集内容，请确保拉动网页侧面的滚动条以使网页完全加载，然后创建采集任务。

　　1. 2，创建采集任务

　　单击左列顶部的“ +”按钮，然后在显示的左列中看到工作台，输入任务名称。

　　每个任务必须具有唯一的任务名称。如果新名称与其他人的名称相同，则会在界面上以红色提示您，并且必须更改名称，直到被接受为止。如果使用非常通用的名称，则具有相同名称的可能性很高。建议在名称后添加自己的Jishou帐户名。

　　第2步：标记需要采集的信息

　　2. 1，在网页上添加注释

　　例如，如果我们想要采集网页上第一个产品的标题，请用鼠标单击标题，标题文本将被一个细蓝框包围。

　　双击产品标题，会弹出一个小窗口，要求此采集内容的字段名称，该字段名称与excel中的字段相对应，在这里，我们输入的字段名称是产品标题。

　　如果这是创建的第一个采集内容，还将要求您输入表名，该表名与采集输出的excel表相对应，并且表名是自定义的。在采集器软件中，我们通常将此表称为“组织框”，这生动地表明我们正在将Web内容组织到一个框中。

　　通过此标记过程，Web内容将与爬网程序将来输出的excel表建立映射关系。在以下教程中，“映射”一词将被多次提及。网页内容采集是将网页上的内容映射到excel表的过程。

　　2. 2，标记更多内容

　　重复上一步以标记价格，评论数和商店名称。

　　第3步：保存规则并采集数据

　　3. 1，测试采集是否符合期望

　　单击“测试”按钮以检查信息的完整性。采集的内容很可能为空，或者收录许多不必要的内容，或者放错了位置，并且采集到达了相邻的内容。然后，您需要重新调整映射关系。如果视觉注释不正确，则可以转到下面的DOM窗口进行内容映射。

　　3. 2，点击“保存”

　　只有保存规则，采集器才能执行规则采集数据。以后可以修改规则。

　　3. 3，点击“采集数据”

　　单击“保存”按钮旁边的“采集数据”按钮，爬网程序将打开一个新窗口以启动采集数据，并测试采集规则是否有效。除了使用“采集数据”按钮启动采集任务外，还有其他操作方法。有关详细信息，请参考以下“开始数据采集”教程。

　　第4步：查看数据

　　4. 1，开始导出过程

　　请参考上图。采集完成后，将显示任务状态页面。单击“导出Excel”按钮，将出现一个提示框。点击确定。

　　4. 2，下载导出的数据

　　单击导出数据，单击下载，默认情况下它将保存到计算机的下载文件夹中。

　　下载的文件是一个ZIP包，并放置在计算机的“下载”文件夹中。您可以单击它以将其自解压缩为excel文件。

　　提醒：仅本教程采集具有第一个产品的数据。要采集此页面上所有产品的数据，请阅读下一篇文章文章“ Web爬网程序采集列表数据”第三步是复制示例采集列表数据。

0

2021-05-16

采集规则采集 data_src

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

V10及更高数据管家——增强版网络爬虫老版本对应教程

0 个评论

发起人

AI时代内容工厂

V10及更高数据管家——增强版网络爬虫老版本对应教程

0 个评论

发起人

相关问题