excel抓取多页网页数据(WebScraper怎么对付这种类型的网页？豆瓣电影TOP排行榜)

优采云发布时间: 2022-02-15 09:09

　　这是简易数据分析系列文章的第12期。

　　在之前的文章文章中，我们介绍了Web Scraper处理各种页面翻转的解决方案，比如修改网页链接加载数据、点击“更多按钮”加载数据、下拉加载数据自动。今天我们讲一种比较常见的翻页方式——pager。

　　我本来想解释什么是寻呼机，但是我发现浏览一堆定义很麻烦。大家上网已经不是第一年了，看图就知道了。我找到了一个功能齐全的例子，它支持数字页码调整，上一页到下一页和指定页数跳转。

　　今天我们将学习 Web Scraper 如何处理这种类型的翻页。

　　其实在本教程的第一个例子中，我们就抢到了豆瓣电影TOP排行榜。这个豆瓣电影列表使用寻呼机来划分数据：

　　但是当时我们是在找网页链接定期爬取，并没有使用pager来爬取。因为当一个网页的链接有规律的变化时，控制链接参数爬取是成本最低的；如果可以翻页，但是链接的变化不规律，就得去pager了一会儿。

　　说这些理论有点无聊，我们举个不规则翻页链接的例子。

　　8月2日是蔡徐坤的生日。为了庆祝，微博上的粉丝给了坤坤300W的转发。微博的转发恰好是被寻呼机分割的，所以我们来分析一下微博的转发。信息页面，了解如何使用 Web Scraper 抓取此类数据。

　　这条微博的直接链接是：

　　看了这么多他的视频，为了表达我们的感激之情，我们可以点进点出给坤坤加个阅读。

　　首先我们看第1页转发的链接，长这样：

　　第二页看起来像这样，注意有一个额外的#_rnd36 参数：

　　第三页参数为#_rnd39

　　第 4 页参数是#_rnd76：

　　多看几个链接，会发现这个转发页面的URL没有规则，只能通过pager加载数据。让我们开始我们的实践教学课程。

　　1.创建站点地图

　　我们首先创建一个SiteMap，这次命名为cxk，起始链接是。

　　2.为容器创建一个选择器

　　因为我们要点击pager，所以我们选择外层容器的类型为Element Click。具体参数说明见下图。我们之前在《简单数据分析08》中详细讲解过，这里就不多说了。

　　容器的预览如下图所示：

　　寻呼机选择过程如下图所示：

　　3.创建子选择器

　　这些子选择器比较简单，类型都是文本选择器。我们选择了三种类型的内容：评论用户名、评论内容和评论时间。

　　4.捕获数据

　　可以根据Sitemap cxk->Scrape的操作路径抓取数据。

　　5.一些问题

　　如果你看了我上面的教程，马上爬数据，你可能遇到的第一个问题就是，300w的数据，我需要一直爬下去吗？

　　听起来很不现实。毕竟Web Scraper针对的数据量比较少，上万的数据算太多了。不管数据有多大，都要考虑爬取时间是否过长，数据如何存储，如何处理。网站的反爬系统（比如突然弹出一个验证码，这个Web Scraper无能为力）。

　　考虑到这个问题，如果你看过之前关于自动控制抓取次数的教程，你可能会想到使用：nth-of-type(-n+N) 来控制N条数据的抓取。如果你尝试一下，你会发现这个方法根本行不通。

　　失败的原因其实涉及到对网页的一点了解。如果您有兴趣，可以阅读下面的说明。不感兴趣的可以直接看最后的结论。

　　就像我之前介绍的更多加载网页和下拉加载网页一样，它们新加载的数据是附加到当前页面的。你不断向下滚动，数据不断加载，网页的滚动条会越来越短。表示所有数据都在同一页面上。

　　当我们使用：nth-of-type (-n+N) 来控制加载次数的时候，其实就相当于在这个网页上设置了一个计数器。当数据已经累积到我们想要的数量时，它就会停止爬取。

　　但是对于使用分页器的网页，每翻一页就相当于刷新当前网页，这样每次都会设置一个计数器。

　　比如你要抓1000条数据，但是第一页只有20条数据，抓到最后一条，还有980条数据。对于一条数据，还有980，一翻页计数器就清零，又变成1000了……所以这种控制数的方法是无效的。

　　所以结论是，如果一个pager类的网页想要提前结束爬取，唯一的办法就是断网。当然，如果您有更好的解决方案，可以在评论中回复我，我们可以互相讨论。

　　6.总结

　　Pager 是一种非常常见的网页分页方法。我们可以通过 Web Scraper 中的 Element click 处理此类网页，并通过断开网络来结束爬取。

0

2022-02-15

excel抓取多页网页数据

0 个评论

要回复文章请先登录或注册