在线抓取网页(介绍webscraper--一款谷歌插件可以方便地抓取网页上 )
优采云 发布时间: 2021-12-28 17:14在线抓取网页(介绍webscraper--一款谷歌插件可以方便地抓取网页上
)
介绍 webscraper - Google 插件
无需编写一行代码,即可轻松抓取网页内容:文字、链接、图片、表格等。
1、安装 webscraper 插件
打开谷歌浏览器,找到扩展程序,进入chrome在线应用商店。搜索网络爬虫。
特别说明:
如果您无法进入 Google 商店。
方法一:您可以先安装一个【谷歌助手】,这样就可以访问谷歌商店了,然后同上。
方法二:到插件库网站下载,实际测试可行。
下载后是一个crx文件,然后打开Chrome。重点是:只支持Chrome浏览器!
1.打开Chrome浏览器设置,找到扩展程序。
2.开启浏览器开发者模式。
3. 将crx后缀改为zip格式,解压即可。4. 在扩展程序中点击“加载解压后的扩展程序”按钮。
5.成功部署网络爬虫。
以上就是基本的安装步骤。让我们试试看。
2、webscraper安装后,工作界面在哪里
在浏览器中点击'右键'-'勾选'后,出现下图-
注意!!: 将开发者工具调试到底部模式。
!!一个实际的例子在这里!
抓取博客第一页的所有标题、内容和时间。
1、添加请求头,URL为
2、理解工具的含义
创建选择器时,您需要使用元素预览和数据预览功能来确保您选择正确的网页元素和数据。
1)selector-CSS 选择器选择想要的元素;
2)multiple-如果要选择多条记录,勾选这个选项。从两个或多个选定的多个选择器中提取的数据不会合并为单个记录;【元素类型的父选择器元素可以设置多个,其子元素不可设置多个】
3)delay-选择器生效前的延迟时间;
4)parent selectors-为这个选择器选择父选择器,生成选择器树结构;
5)文本选择器(Text selector);
6)链接选择器(Link selector);
7)元素选择器。
3 在_root目录下添加一个元素类型的元素
Element 类型的元素是父选择器元素,可以绑定你想要抓取的子元素
通常元素是下图中的蓝色块规则。
4、创建要爬取的内容规则,
父选择器创建成功后【即元素类型元素】,我们可以在父选择器中新建一个子选择器,比如title、content、TimeAndNum,如下图。
5、开始刮刮
附录:你可能遇到的爬虫问题
1、 为什么抓取的数据和网站的顺序不一样?
Webscraper 抓取数据的结果默认是乱序的。如果希望结果变得有序,则需要安装 CouchDB 或使用其他替代方法。我们最后导出的数据是 csv 格式。在excel中打开csv后,可以使用excel功能进行整齐的排序。
2、 除了excel,抓取的内容是否可以导出为其他格式?
不可以,webscraper 暂时只支持导出excel。
3、 数据抓到了,却放错了地方,怎么回事?
数据错位,因为您没有创建子选择器。
应该新建一个Element作为父选择器,将要捕获的信息作为子选择器使用,这样捕获的信息就不会错位。
4、获取多页数据
5、如何抓取rolling加载的数据?
6、如何抓取图片src?
7、这种加载触发的多页数据如何获取?