chrome抓取网页插件(我不想写代码,如何快速爬取几个不太大不太大的网页?)
优采云 发布时间: 2021-10-22 23:11chrome抓取网页插件(我不想写代码,如何快速爬取几个不太大不太大的网页?)
点击链接:
学习更多IDEA进阶技巧,或关注公众号“Java面试”学习更多面试技巧。
最近有个同学问我。
我不想写代码。如何快速抓取少量数据的几个网页?
这种需求预计会遇到很多次。比如你想爬取秒杀页面的商品信息进行对比;您想抓取国家统计局官网上发布的您感兴趣的数据;等等。
说了这么多,我来简单介绍一下网络爬虫。网络爬虫的主要目的是抓取互联网上的网页。你可以把互联网上的每一个网页想象成一个点,那么整个互联网就会相互连接起来。是不是和我们大学里学的图论很像?如果从任意网页开始,时间资源允许,可以使用广度优先算法(BFS)或深度优先算法(DFS)爬取整个互联网。不熟悉这两种算法的同学可以背书。
我们以比较流行的Scrapy架构图为例,流线就是数据流向。
看完这张图,你对常见的爬虫有一个大概的了解了吗?
专业的网络爬虫(如百度/谷歌爬虫)旨在节省资源和时间。因此,设计相当复杂。这些爬虫一般都是基于分布式集群构建的,有的机器负责调度,有的机器负责下载,有的机器专门基于网页进行分析,等等。不能简单地用 BFS/DFS 解决。例如,如果我们以调度器为例,它需要管理下载优先级。引擎发送Request请求时,需要按照优先级进行排序和排列。当发动机需要它时,将其返还给发动机。
虽然各种语言的爬虫框架很多,但是如果用这些框架去爬取这一点数据,真的有点矫枉过正,还要代码调试,各种麻烦!!!
我发现Chrome商店里有个爬虫插件正好解决了这个痛点。它的名字是 Web Scraper,目前有 22w 用户下载。
官网:webscraper.io
这个爬虫的操作很简单,按照官方文档,几分钟就能学会。
我在这里谈几个关键点。
1、开始
一般第一次使用时,如果不知道怎么打开,可以使用快捷键ctrl+shift+i打开开发者工具。
站点地图:您所有的爬虫。
创建新站点地图:为新爬虫创建起始地址。
2、选择器
对于一个选择器来说,有以下几个元素,它的主要作用是为爬虫提供一个可视化的选择功能来分析网页的功能,如下图所示。
好的,下面我们来详细说明一下选择器内部的几个元素。
Id:选择器的ID;
Type:要抓取的内容类型,包括文本、图片、元素集;
选择器:选择器。点击选择按钮选择我们要抓取的内容,点击元素预览按钮预览选中的内容,点击数据预览按钮预览抓取的数据;
多路:勾选此按钮可以并行连接相同的内容;
Regex:正则表达式;
延迟:延迟。为了让页面有足够的时间加载数据;
父选择器:父选择器。
有同学可能会问,如果我想在一个页面上选择多个元素怎么办?上面提到的 Type 属性中的 Element 就扮演了这个角色,就像我在这里一样。
3、关系图
我觉得这个功能很好,可以帮助我们看到这个爬虫的层次关系图。
最后就是爬取数据了,爬取后的数据也可以导出到excel中供大家分析。
你可以去玩这个爬虫插件,它会帮你快速分析一些简单的数据。
就停在这里。
由于长期熬夜,造成近段不适,需要调理。建议大家早点休息,身体是革命的本钱。
如果这个文章对你有帮助,记得点赞或转发哦。