在线抓取网页(初识webscraper开发人员安装方式(图):请输入图片描述本地)
优采云 发布时间: 2021-09-20 08:05在线抓取网页(初识webscraper开发人员安装方式(图):请输入图片描述本地)
Web scraper是一个免费的爬虫工具,面向普通用户(不需要专业IT技术)。它可以通过鼠标和简单的配置轻松获得您想要的数据。例如知乎答案列表、热门微博、微博评论、电商网站产品信息、博客文章列表等
安装过程
在线安装模式
在线安装需要FQ网络和访问chrome应用商店
1、在线访问web scraper插件并单击“添加到chrome”
请输入图片描述
2、然后在弹出框中单击“添加扩展”
请输入图片描述
3、安装完成后,顶部工具栏中会显示刮网器图标
请输入图片描述
本地安装模式
1、打开chrome并在地址栏中输入chrome://extensions/ ,进入扩展管理界面,然后下载扩展webv0.3.@7.crx拖到此页并单击“添加到扩展”以完成安装。如图所示:
请输入图片描述
2、安装完成后,顶部工具栏中会显示刮网器图标
${{2}$
请输入图片描述
了解网络刮刀
开式刮板机
开发人员可以路过并回头看
快捷键F12可在Windows系统下使用。某些型号的笔记本电脑需要按FN+F12
在MAC系统下,您可以使用快捷键command+option+I
您也可以直接在chrome界面上操作,然后单击设置->;更多工具->;开发工具
请输入图片描述
打开后的效果如下。绿框部分是开发工具的完整界面,红框部分是web刮板区域,也就是我们以后要操作的部分
请输入图片描述
注意:如果在浏览器的右侧区域打开“开发人员”工具,则需要将“开发人员”工具的位置调整到浏览器的底部
请输入图片描述
原理与功能描述
数据爬网的思想可以概括如下:
1、通过一个或多个入口地址获取初始数据。例如,文章list页面,或具有特定规则的页面,例如具有分页的列表页面
2、根据进入页面的一些信息,如链接指向,进入下一级页面以获取必要的信息
3、根据上一级的链接,继续下一级以获取必要的信息(此步骤可以无限循环)
原理大致相同。接下来,让我们正式了解web scraper工具。打开developer工具,单击Web scraper的选项卡栏,可以看到它分为三个部分:
请输入图片描述
创建新的站点地图:首先理解站点地图,字面上是网站map,它可以理解为一个入口地址,对应于网站和一个需求。如果您想获得关于知乎的问题的答案,请创建一个站点地图,将问题的地址设置为站点地图的起始URL,然后单击“创建站点地图”,您可以创建一个站点地图
请输入图片描述
站点地图:站点地图的集合。所有创建的站点地图都将显示在此处,您可以在此处输入站点地图以进行修改、数据捕获和其他操作
请输入图片描述
站点地图:进入站点地图后,可以执行一系列操作,如下图所示:
请输入图片描述
在红色框中添加新选择器是必不可少的步骤。什么是选择器?字面意思:选择器对应于网页的一部分,即收录我们想要采集的数据的部分
应该解释的是,一个站点地图下可以有多个选择器。每个选择器都可以收录子选择器。选择器只能对应一个标题或整个区域。此区域可能收录标题、副标题、作者信息、内容等
选择器:查看所有选择器
选择器图:查看当前站点地图的拓扑,根节点是什么,包括选择器下的几个选择器和子选择器
编辑元数据:您可以修改站点地图信息、标题和起始地址
Scratch:开始数据捕获
以CSV格式导出数据:以CSV格式导出捕获的数据
在这里,简单的理解就足够了。真正的知识来自实践,具体的操作案例具有说服力。这里有几个例子来解释具体用法
案例实践
简易水压试验hao123
从简单到深入,首先以最简单的示例作为入口,这只是进一步了解web服务的一种方式
需求背景:请参见下面hao123页面中的红色框。我们的要求是统计该区域中所有网站名称和链接地址,并最终将它们生成excel。因为这部分内容足够简单,当然,实际需要可能比这更复杂,而且手动统计这些数据的时间也非常快
请输入图片描述
启动操作
1、假设我们打开了hao123页面,打开了页面底部的开发者工具,并找到了web scraper选项卡
2、单击“创建站点地图”
请输入图片描述
3、然后输入站点地图名称和开始URL。这个名字只是为了我们的方便。它名为hao123(注意不支持中文)。起始URL是hao123的网址,然后单击“创建站点地图”
请输入图片描述
4、然后web刮板将自动定位站点地图。接下来,我们将添加一个选择器并单击“添加新选择器”
请输入图片描述
5、first为选择器分配一个ID,这只是一个易于识别的名称。我觉得这里很热。由于要获取名称和链接,请将类型设置为link。此类型是专门为网页链接准备的。选择链接类型后,将自动提取名称和链接这两个属性
请输入图片描述
6、然后单击选择,然后我们在网页上移动光标。我们将发现光标的颜色将变为绿色,表示它是当前选定的区域。我们将光标定位在需求中提到的列中的链接上,例如第一条标题新闻,然后单击此处。此零件将变为红色,表示它已被选中。我们的目的是选择多个,所以在选择这个之后,继续选择第二个,我们会发现这一行中的链接变成红色。没错,这就是我们想要的效果。然后单击“执行选择!”(数据预览是所选元素的标识符,可以手动修改。按类和元素名称确定元素,如div.p_name a)。最后,不要忘记检查multiple,这意味着您需要采集多个数据段
请输入图片描述
7、finally save,save selector。单击“图元预览”预览选定区域,然后单击“数据预览”在浏览器中预览捕获的数据。对于理解技术的学生来说,后面文本框中的内容非常清楚。这是XPath。我们可以直接编写XPath而无需鼠标操作
完整的操作流程如下:
请输入图片描述
8、在上一步之后,您可以实际导出。别担心。看看其他的操作。您可以在sitemap hao123下的选择器图中看到拓扑图。根是根选择器。当你创建一个站点地图时,会有一个自动的根节点,你可以看到它的子选择器,这是我们创建的热选择器
请输入图片描述
9、Scrape,开始提取数据
10、hao123站点地图下的@Browse可以通过浏览器直接查看最终捕获的结果,需要更新
请输入图片描述
11、最后,使用导出数据作为CSV以CSV格式导出,其中热列是标题,热href列是链接
请输入图片描述
试试怎么样
软件定制|网站construction |获取更多干货