全自动文章采集、AI生成、自动发布，网站自媒体全搞定！立即注册

chrome插件网页抓取(我发现Chrome商店里面有一款爬虫插件，还得要编码调试各种麻烦！)

优采云发布时间: 2021-10-01 06:16

　　chrome插件网页抓取(我发现Chrome商店里面有一款爬虫插件，还得要编码调试各种麻烦！)

　　看完这张图，你对常见的爬虫有一个大概的了解了吗？

　　专业的网络爬虫（如百度/谷歌爬虫）为了节省资源和时间，因此设计相当复杂。这些爬虫一般都是基于分布式集群搭建的，有的机器负责调度，有的机器负责下载，有的机器专门基于网页进行分析，等等。不能简单地用 BFS/DFS 解决。例如，如果我们以调度器为例，它需要管理下载优先级。引擎发送Request请求时，需要按照优先级进行排序和排列。当发动机需要它时，将其返还给发动机。

　　虽然各种语言的爬虫框架很多，但是如果用这些框架来爬取这些数据，真的有点大材小用了，还得自己编码调试，各种麻烦！！！

　　我发现Chrome商店里有个爬虫插件正好解决了这个痛点。它的名字是 Web Scraper，目前有 22w 用户下载。

　　

　　官方网站：

　　这个爬虫的操作很简单，按照官方文档，几分钟就能学会。

　　我在这里谈几个关键点。

　　1、开始

　　一般第一次使用时，如果不知道怎么打开，可以使用快捷键ctrl+shift+i打开开发者工具。

　　

　　站点地图：您所有的爬虫。

　　创建新站点地图：为新爬虫创建起始地址。

　　2、选择器

　　

　　对于选择器，有以下元素。它的主要功能是为爬虫提供一个可视化的选择功能来分析网页功能，如下图所示。

　　

　　好的，下面我们来详细说明一下选择器内部的几个元素。

　　Id：选择器的ID；

　　Type：要抓取的内容类型，包括文本、图片、元素集；

　　选择器：选择器。点击选择按钮选择我们要抓取的内容，点击元素预览按钮预览选中的内容，点击数据预览按钮预览抓取的数据；

　　多路：勾选此按钮可以并行连接相同的内容；

　　Regex：正则表达式；

　　延迟：延迟。为了让页面有足够的时间加载数据；

　　父选择器：父选择器。

　　有同学可能会问，如果我想在一个页面上选择多个元素怎么办？上面提到的 Type 属性中的 Element 就扮演了这个角色，就像我在这里一样。

　　

　　3、关系图

　　我觉得这个功能很好，可以帮助我们看到这个爬虫的层次关系图。

　　

　　最后就是爬取数据了，爬取后的数据也可以导出到excel中供大家分析。

　　

　　你可以去玩这个爬虫插件，它会帮你快速分析一些简单的数据。

　　就停在这里。

　　由于长期熬夜，造成近段不适，需要调理。建议大家早点休息，身体是革命的本钱。

　　如果这个文章对你有帮助，记得点赞或转发哦。

0

2021-10-01

chrome插件网页抓取

0 个评论

要回复文章请先登录或注册

视
频
教
程

官方客服QQ群

在
线
客
服