如何基于一款浏览器插件WebScraper做到,不写一行代码
优采云 发布时间: 2021-03-26 05:19
如何基于一款浏览器插件WebScraper做到,不写一行代码
一、前言
本专栏主要针对一些在日常生活中有数据采集需求但没有编程经验的朋友。如何基于浏览器插件WebScraper进行操作,而无需编写任何代码,只需完成简单的配置即可从整个网络中一键式提取网页数据,并将其自动保存在Excel中。它可以配置一次,并且可以使用很长时间。
在先前的文章中,我们讨论了使用WebScraper提取几个不同的分页网页数据示例,例如一些滚动以加载更多,单击列表底部的“加载更多”,甚至更简单在数据列表的底部,有一个可以直接找到特定页码数据的寻呼机。我们已经讨论过这些。
但是,我们知道当今许多网页的数据显示结构都是基于数据流的形式。只要您继续尝试获取更多数据,推荐算法就可以始终向您推荐新内容。在这种情况下,WebScraper实际上是傻瓜式,因为总是有新数据,它找不到正确的停止时间,并且会继续运行。
当然,有一种解决方法。接下来,让我们看一下WebScrapter。如何正确停止WebScraper的数据提取,以及如何限制获取的数据量?
本文将介绍几个选项,所有这些选项都有不同的应用范围。我们应该为不同的情况选择不同的选项。
二、仅获得有限的数据
2. 1被迫停止
我们知道,在运行WebScraper时,浏览器会打开一个小窗口以打开网页并采集网页上显示的数据。
如果我们要停止数据采集,最简单的方法是,如果我们认为数据已足够,则可以关闭此小窗口以停止数据采集效果。
以下是“豆瓣电影”的示例。从这张Gif图片中,您可以看到WebScraper只采集2页数据,因此我强行关闭了该窗口。然后单击蓝色的“刷新”按钮以有效显示数据。
此功能归因于WebScraper提取的数据,这些数据是实时记录的。换句话说,即使我们通过关闭窗口来强制停止WebScraper的数据采集,也不会影响停止之前已采集的数据。
但是,实时保存数据的功能已新增到WebScraper v 0. 4. 2的新版本中。 WebScraper停止后,先前的版本已保存,因此,在的先前版本中,强行停止将不会产生任何数据。
建议在此处使用最新版本。在专栏前面的文章中已说明了如何获取新版本,因此在此不再赘述。
但是,这种停止方法比较粗糙,无法准确控制数据量。我们只能依靠自己的感觉去把握,感觉到所采集的数据就足够了,然后我们停止它。
还有另一点需要注意。例如,“豆瓣电影”的分页结构实际上是通过我们之前谈到的URL分页实现的。
使用WebScraper的这种分页结构实际上将从最后一页开始并从头到尾采集数据。如您在前面的示例中看到的,它实际上采集了最后9、 10页的数据。不是1、 2页的数据。
在这种情况下,如果要控制数据量,更好的方法是控制页面数并直接限制1、 2页数据的采集。
2. 2只要前10个数据
接下来,让我们看一下如何准确控制数据量。
以下是豆瓣电影Top250的示例。这个网站即将被我们破坏。我们做
使用采集单页数据的旧版站点地图,并注意“起始网址”中填写的地址。
根据管理,我们将有一个ID为container的Element作为数据行的容器。