WebScraper：从网页中提取数据的Chrome网页数据提取插件

优采云发布时间: 2021-05-30 18:26

　　我要分享的工具是一个Chrome插件，叫做：Web Scraper，这是一个Chrome网页数据提取插件，可以从网页中提取数据。从某种意义上说，你也可以将其用作爬虫工具。

　　也是因为最近在整理36氪文章的一些tag，打算看看风投网站还有哪些相关的标准可以参考，所以找了一家公司，名字叫：“Caiu Data”网站，它提供的一套“行业系统”标签，具有很大的参考价值。我想抓取页面上的数据，集成到我们自己的标签库中，如下图红字部分所示：

　　如果是规则显示的数据，也可以用鼠标选中并复制粘贴，但还是得想办法把它嵌入到页面中。这时候想起之前安装过Web Scraper，就试了一下。使用起来相当方便，采集效率一下子提高了。我也给你安利~

　　Web Scraper 是一个 Chrome 插件。一年前在一个三班的公开课上看到的。号称是不懂编程也能实现爬虫爬虫的黑科技，但是在三类的官网上好像找不到。可以百度一下：《三门爬虫》，还是可以找到的，名字叫《人人都能学的数据爬虫课》，不过好像要收费100元。我觉得这个东西可以看网上的文章，比如我的文章~

　　简单来说，Web Scraper是一款基于Chrome的网页元素解析器，可以通过可视化的点击操作，提取自定义区域中的数据/元素。同时，它还提供了定时自动提取功能，可以用作一组简单的采集器工具。

　　这里顺便解释一下网页提取器抓取和真实代码抓取器的区别。使用网页提取器自动提取页面数据的过程有点类似于模拟手动点击的机器人。它首先让您定义页面要求。抓取哪些元素，抓取哪些页面，然后让机器代人操作；而如果你用Python写一个爬虫，更多的是使用网页请求命令先下载整个网页，然后用代码解析HTML页面元素。提取您想要的内容，并继续循环。相比之下，使用代码会更灵活，但解析的成本会更高。如果是简单的页面内容提取，我也推荐使用Web Scraper。

　　关于Web Scraper的具体安装过程以及完整功能的使用方法，今天在文章中不再赘述。第一个是我只用了我需要的，第二个是市场上的Web Scraper教程太多了，你可以自己找到。

　　这里只是一个实践过程，给大家简单介绍一下我的使用方法。

　　第一步是创建站点地图

　　打开 Chrome 浏览器并按 F12 以调用开发者工具。 Web Scraper 位于最后一个选项卡上。点击后，选择“创建站点地图”菜单，然后点击“创建站点地图”选项。

　　首先输入你要爬取的网站 URL，以及你自定义的爬取任务的名称。比如我取的名字是：xiniulevel，网址是：

　　第二步创建抓取节点

　　我想抓取一级标签和二级标签，所以我先点进我刚刚创建的Sitemap，然后点击“添加新选择器”进入抓取节点选择器配置页面，点击“选择”页面上的按钮，然后你会看到一个浮动图层出现

　　此时，当您将鼠标移入网页时，它会自动以绿色突出显示您将鼠标悬停的某个位置。此时，您可以先单击要选择的块，然后您会发现该块变为红色。如果要选择同一层级的所有块，可以继续点击下一个相邻块，工具将默认选择所有同一层级的块，如下图：

　　我们会发现下面浮动窗口的文本输入框自动填充了块的XPATH路径，然后点击“完成选择！”结束选择，浮动框消失，选中的XPATH自动填入下面的Selector行。另外，一定要选择“Multiple”来声明要选择多个块。最后，单击“保存”选择器按钮结束。

　　第三步获取元素值

　　完成Selector的创建后，回到上一页，会发现Selector表多了一行，然后可以直接点击Action中的Data preview查看所有的想要获取的元素值。

　　上图所示的部分是我添加了两个Selector，主标签和副标签的情况。点数据预览的弹窗内容其实就是我想要的，直接复制到EXCEL就可以了，不需要什么太复杂的自动爬取处理。

　　上面是对使用Web Scraper的过程的简要介绍。当然，我的使用并不是完全高效，因为每次想要获取二级标签时，都需要先手动切换一级标签，然后再执行抓取指令。应该有更好的方法，但对我来说已经足够了。本文【k13】主要想和大家普及一下这个工具。这不是教程。更*敏*感*词*根据自己的需要去探索~

0

2021-05-30

网站内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

WebScraper：从网页中提取数据的Chrome网页数据提取插件

0 个评论

发起人