抓取网页数据工具( WebScraper:如何从网页中提取数据的Chrome网页数据提取插件)

优采云 发布时间: 2022-03-16 12:24

  抓取网页数据工具(

WebScraper:如何从网页中提取数据的Chrome网页数据提取插件)

  

  我要分享的工具是一个Chrome插件,叫做:Web Scraper,这是一个Chrome网页数据提取插件,可以从网页中提取数据。从某种意义上说,你也可以把它当作一个爬虫工具来使用。

  也因为最近在梳理36氪文章的一些标签,想看看还有哪些其他风险投资相关的标准网站可以参考,所以找到了一家公司,名字叫:“恩牛”数据”网站,它提供的一组“行业系统”标签,具有很大的参考价值。意思是我们要抓取页面上的数据,集成到我们自己的标签库中,如下图红色部分:

  

  如果是规则显示的数据,也可以用鼠标选中,然后复制粘贴,不过还是需要想一些办法嵌入到页面中。这时候才想起之前安装了Web Scraper,于是就试了一下。让大家安心~

  Web Scraper 是一个 Chrome 插件,一年前在三门课程的公开课上看到过。号称是不知道编程就可以实现爬虫爬取的黑科技。不过好像找不到三门课程的官网。你可以百度:《爬虫三课》还是可以找到的。名字叫《人人都能学的数据爬虫课程》,但好像要交100块钱。我觉得这个东西可以看网上的文章,比如我的文章~

  简单来说,Web Scraper 是一个基于 Chrome 的网页元素解析器,可以通过视觉点击操作从自定义区域中提取数据/元素。同时还提供定时自动提取功能,可以作为一套简单的爬虫工具使用。

  这里顺便解释一下网页提取器爬虫和真实写代码爬虫的区别。使用网页提取器自动提取页面数据的过程有点类似于模拟手动点击的机器人。它首先让您定义要在页面上抓取的元素。,以及抓取哪些页面,然后让机器替人操作;而如果你用Python写爬虫,你更有可能使用网页请求命令下载整个网页,然后用代码解析HTML页面元素,提取出你想要的内容,一遍遍重复再次。相比之下,使用代码会更灵活,但解析的成本会更高。如果是简单的页面内容提取,我也推荐使用Web Scraper。

  关于Web Scraper的具体安装过程和完整功能的使用,今天的文章我就不展开了。第一个是我只使用了自己需要的部分,第二个是因为市面上有很多关于Web Scraper的教程,大家可以自行查找。

  这里只是一个实际的过程,给大家简单介绍一下我是如何使用它的。

  第一步是创建站点地图

  打开Chrome浏览器,按F12调出开发者工具,Web Scraper在最后一个标签,点击它,然后选择“创建站点地图”菜单,点击“创建站点地图”选项。

  

  首先输入你要爬取的网站网址,以及你自定义的爬取任务的名称。比如我取的名字是:xiniulevel,网址是:

  第二步,创建抓取节点

  我要抓取的是一级标签和二级标签,所以先点击我刚刚创建的Sitemap,然后点击“添加新选择器”进入抓取节点选择器配置页面,点击“选择”页面上的按钮,您将看到一个浮动层出现

  

  此时,当您将鼠标移入网页时,它会自动将您鼠标悬停的位置以绿色突出显示。这时候你可以先点击一个你想选中的区块,你会发现这个区块变成了红色。如果要选中同级的所有块,可以继续点击下一个相邻的块,那么工具会默认选中同级的所有块,如下图:

  

  我们会发现下方悬浮窗的文本输入框自动填充了block的XPATH路径,然后点击“完成选择!” 结束选择,浮动框消失,选中的 XPATH 自动填充到下方的 Selector 行中。还要确保选中“多个”以声明您要选择多个块。最后,单击保存选择器按钮结束。

  

  第三步获取元素值

  完成Selector的创建后,回到上一页,你会发现多了一行Selector表格,那么你可以直接点击Action中的Data preview,查看你想要获取的所有元素值。

  

  

  上图所示的部分是我添加了两个选择器的情况,一个一级标签,一个二级标签。我点击数据预览时弹出的窗口内容其实就是我想要的,直接复制到EXCEL即可,不需要太复杂。自动爬取处理。

  以上就是对Web Scraper使用过程的简单介绍。当然,我的使用并不是完全高效,因为每次想要获取二级标签,都得手动切换一级标签,然后执行抓取命令。应该有更好的方法,但对我来说已经足够了。这个文章主要是跟大家普及一下这个工具,不是教程,更*敏*感*词*还需要根据自己的需要去探索~

  怎么样,对你有帮助吗?期待与我分享你的讯息~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线