网页视频抓取浏览器(初识scraper打开WebScraper的图标(一)_光明网(组图))
优采云 发布时间: 2021-12-14 20:03网页视频抓取浏览器(初识scraper打开WebScraper的图标(一)_光明网(组图))
Web Scraper是一款适合普通用户(无需专业IT技术)的免费爬虫工具,通过鼠标和简单的配置即可轻松获取你想要的数据。例如知乎回答列表、微博热点、微博评论、电商网站产品信息、博客文章列表等。 在线安装方法在线安装需要FQ网络,可以访问Chrome App Store1、在线访问Web Scraper插件,点击“添加到CHROME”。
2、然后在弹出的框中点击“添加扩展”
3、安装完成后,顶部工具栏会显示Web Scraper图标。
本地安装
1、打开Chrome,在地址栏输入chrome://extensions/,进入扩展管理界面,然后下载下载的扩展Web-Scraper_v0.3.7.将crx拖放到该页面,点击“添加到扩展”即可完成安装。如图:
2、安装完成后,顶部工具栏会显示Web Scraper图标。
第一次认识网络爬虫
打开网页爬虫
开发者可以路过看看后面
windows系统下可以使用快捷键F12,部分笔记本机型需要按Fn+F12;
Mac系统下可以使用快捷键command+option+i;
也可以直接在Chrome界面操作,点击设置—>更多工具—>开发者工具
打开后的效果如下,绿框部分是开发者工具的完整界面,红框部分是Web Scraper区域,是我们后面要操作的部分。
注意:如果在浏览器右侧区域打开开发者工具,需要将开发者工具的位置调整到浏览器底部。
原理及功能说明
数据爬取的思路大体可以简单总结如下:
1、 通过一个或多个入口地址获取初始数据。比如文章列表页,或者有一定规则的页面,比如有分页的列表页;
2、根据入口页面的一些信息,比如链接点,进入下一页,获取必要的信息;
3、 根据上一层的链接继续下一层,获取必要的信息(这一步可以无限循环);
原理大致相同。接下来,让我们正式认识一下Web Scraper工具。来吧,打开开发者工具,点击Web Scraper选项卡,看到它分为三个部分:
创建新的站点地图:首先了解站点地图,字面意思是网站地图,这里可以理解为入口地址,可以理解为对应一个网站,对应一个需求,假设你要获取知乎 on 要回答其中一个问题,请创建站点地图,并将此问题的地址设置为站点地图的起始网址,然后单击“创建站点地图”以创建站点地图。
站点地图:站点地图的集合。所有创建的站点地图都会显示在这里,可以在此处输入站点地图进行修改、数据抓取等操作。
站点地图:输入一个站点地图,可以进行一系列的操作,如下图:
红框部分 Add new selector 是必不可少的一步。什么是选择器,字面意思是:选择器,一个选择器对应网页的一部分,也就是收录我们要采集的数据的部分。
需要说明的是,一个站点地图可以有多个选择器,每个选择器可以收录子选择器,一个选择器只能对应一个标题,也可以对应整个区域,这个区域可能收录标题、副标题、作者信息、内容、等和其他信息。
选择器:查看所有选择器。
选择器图:查看当前站点地图的拓扑*敏*感*词*,什么是根节点,收录几个选择器,选择器下收录的子选择器。
编辑元数据:您可以修改站点地图信息、标题和起始地址。
Scrape:开始数据抓取工作。
将数据导出为 CSV:以 CSV 格式导出捕获的数据。
至此,简单的了解一下就可以了。真知灼见,具体操作案例令人信服。下面举几个例子来说明具体的用法。
案例实践
简单测试hao123
从最简单到深入,我们以一个简单的例子作为入口,作为对Web Scraper服务的进一步了解
需求背景:见下hao123页面红框部分。我们的需求是统计这部分区域的所有网站名称和链接地址,最后在Excel中生成。因为这部分内容已经足够简单了,当然真正的需求可能比这更复杂,而且人工统计这么几条数据的时间也很快。
开始运作
1、 假设我们已经打开了hao123页面,并且打开了这个页面底部的开发者工具,并找到了Web Scraper标签栏;
2、点击“创建站点地图”;
3、 输入sitemap名称和start url后,名称仅供我们标记,命名为hao123(注意不支持中文),start url为hao123的url,然后点击create sitemap;
4、 之后,Web Scraper 会自动定位到这个站点地图,然后我们添加一个选择器,点击“添加新的选择器”;
5、首先给这个选择器分配一个id,它只是一个容易识别的名字。我把它命名为热这里。因为要获取名称和链接,所以将类型设置为链接。这种类型是专门为网页链接准备的。选择Link type后,会自动提取name和link这两个属性;
6、 然后点击select,然后我们在网页上移动光标,我们会发现光标的颜色会发生变化,变成绿色,表示这是我们当前选中的区域。我们将光标定位在需求中提到的那一栏的某个链接上,比如第一条头条新闻,点击这里,这部分会变成红色,表示已经被选中,我们的目的是选中有多个,所以选中后这个,继续选择第二个,我们会发现这一行的链接都变红了,没错,这就是我们想要的效果。然后点击“完成选择!” (数据预览是被选中元素的标识符,可以手动修改。元素由类和元素名称决定,如:div.p_name a)。最后,不要忘记检查Multiple,
7、最后保存,保存选择器。单击元素预览可预览所选区域,单击数据预览可在浏览器中预览捕获的数据。下面文本框的内容对于懂技术的同学来说是很清楚的,这就是xpath,我们可以不用鼠标直接手写xpath;
完整的操作流程如下:
8、完成上一步后,就可以实际导出了。别着急,看看其他的操作。Sitemap hao123下的Selector图可以看到拓扑图。_root 是根选择器。创建站点地图时,会自动出现一个_root节点,可以看到它的子选择器,也就是我们创建的热选择器;
9、刮,开始刮数据。
10、在Sitemap hao123下浏览,可以直接通过浏览器查看抓取的最终结果,需要重新;
11、 最后使用Export data as CSV导出为CSV格式,其中hot列为标题,hot-href列为链接;
怎么样,试试看