配套软件版本:V10及更高数据管家——增强版网络爬虫老版本对应教程

优采云 发布时间: 2021-08-02 05:01

  配套软件版本:V10及更高数据管家——增强版网络爬虫老版本对应教程

  支持软件版本:V10及更高版本Data Manager-Enhanced Web Crawler

  老版本对应教程:V9及以下。吉首客网络爬虫对应的教程是《翻页采集List数据》

  翻页的方式有很多种。本教程将仅解释通过单击“下一页”按钮执行的翻页。单击第 1、2、3 页码进行翻页将在另一个教程中说明。在本教程中,会提到两个术语,翻页区域和下一页标志,这是设置翻页的关键点,请理解。

  1.操作步骤(看视频)

  京东的列表页有很多页。爬虫软件能不能自动翻页,采集每一页的数据?当然你可以在任务中设置翻页,爬虫软件可以自动翻页采集数据。我们以京东列表页面为例,操作步骤如下:

  

  2.详细操作步骤

  采集Rules:京东商品列表采集new(点击下载爬虫规则)

  示例网址:%E7%89%9B%E4%BB%94%E8%A3%A4&enc=utf-8&wq=%E7%89%9B%E4%BB%94ku&pvid=8b028fa5b6a841aa8bc3b6e2af1ed82

  采集内容:商品名称、价格、评论数、商品详情页链接等,自动翻页采集。

  本案例基于上一篇文章“Web Crawler采集List数据”,直接添加翻页设置,所以前三步不再赘述,第四步直接在下面。步进操作。

  第 4 步:设置翻页

  包括两步:1.设置翻页区域; 2. 设置下一页标志。

  所谓的翻页区就是网页上的一个区域。该区域收录所有分页的页码和“下一页”按钮。为什么要设置翻页区域而不是只设置“下一页”的翻页标志?因为设置翻页区域可以在网页上划定一个范围,爬虫会在这个范围内找到“下一页”标志,这样会更准确。

  4.1,进入翻页配置

  点击左侧工作台上的“3 Set Route”,然后点击New。

  

  4.2,设置翻页区域

  如下图,在页面上选择翻页区域。所谓翻页区,就是收录所有页面的页码和下一页按钮的区域。该区域对应于 DOM 上的一个节点。

  

  在DOM区域中,右击这个翻页区域对应的节点,出现一个选择菜单:翻页映射->翻页区域->Route 1,表示这个节点映射到新创建的爬虫路径1作为翻页区域。如下所示。翻页区域已映射。

  

  4.3,设置翻页标志

  在当前网页上,点击翻页按钮“下一页”。在下方的DOM区域,光标自动定位到一个节点,点击该节点,查看左侧页面元素窗口,找到#text,#text的值为“Next Page”。右键单击此#text 并选择:翻页地图→下一页徽标。这样,也设置了下一页标志。

  

  tips:这里提到了左侧查看网页元素的小窗口,这里展示了DOM元素节点的详细内容,包括元素节点的id和class属性,以及文本内容。请注意,元素的属性以@开头,元素的文本内容用#text表示,“文本内容”字段是连接元素内部所有文本的内容。

  第 5 步:保存规则并捕获数据

  5.1,规则测试成功后,点击“保存”;本文不再赘述,详见“定义规则采集网站数据”

  5.2,点击“采集数据”,会自动打开一个新的采集窗口,可以指定采集几个网址,也可以指定翻页次数,然后开始采集数据。

  

  5.3,采集完成后,会出现一个状态界面,有一个导出数据的按钮。点击后会跳转到数据管理界面,可以下载数据。

  

  如果要查看原创结果数据,原创数据会以xml文件的形式保存在DataScraperWorks文件夹中。详情请参考文章《查看数据结果》。

  提示:在实际的列表页面中,翻页区域和翻页标志有多种情况。如果遇到本教程中“下一页”以外的基于文本的翻页标志,例如箭头,只有数字页码,请参考“点击数字翻页”,“翻页符号是一个箭头。

  第 1 部分 文章:“Web Crawler采集List 数据”第 2 部分 文章:“Excel 格式的包下载 采集Result 数据”

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线