在线抓取网页(初识webscraper开发人员安装方式(图)：请输入图片描述本地)

优采云发布时间: 2021-09-20 08:05

　　Web scraper是一个免费的爬虫工具，面向普通用户（不需要专业IT技术）。它可以通过鼠标和简单的配置轻松获得您想要的数据。例如知乎答案列表、热门微博、微博评论、电商网站产品信息、博客文章列表等

　　安装过程

　　在线安装模式

　　在线安装需要FQ网络和访问chrome应用商店

　　1、在线访问web scraper插件并单击“添加到chrome”

　　请输入图片描述

　　2、然后在弹出框中单击“添加扩展”

　　请输入图片描述

　　3、安装完成后，顶部工具栏中会显示刮网器图标

　　请输入图片描述

　　本地安装模式

　　1、打开chrome并在地址栏中输入chrome://extensions/ ，进入扩展管理界面，然后下载扩展webv0.3.@7.crx拖到此页并单击“添加到扩展”以完成安装。如图所示：

　　请输入图片描述

　　2、安装完成后，顶部工具栏中会显示刮网器图标

　　${{2}$

　　请输入图片描述

　　了解网络刮刀

　　开式刮板机

　　开发人员可以路过并回头看

　　快捷键F12可在Windows系统下使用。某些型号的笔记本电脑需要按FN+F12

　　在MAC系统下，您可以使用快捷键command+option+I

　　您也可以直接在chrome界面上操作，然后单击设置-&gt；更多工具-&gt；开发工具

　　请输入图片描述

　　打开后的效果如下。绿框部分是开发工具的完整界面，红框部分是web刮板区域，也就是我们以后要操作的部分

　　请输入图片描述

　　注意：如果在浏览器的右侧区域打开“开发人员”工具，则需要将“开发人员”工具的位置调整到浏览器的底部

　　请输入图片描述

　　原理与功能描述

　　数据爬网的思想可以概括如下：

　　1、通过一个或多个入口地址获取初始数据。例如，文章list页面，或具有特定规则的页面，例如具有分页的列表页面

　　2、根据进入页面的一些信息，如链接指向，进入下一级页面以获取必要的信息

　　3、根据上一级的链接，继续下一级以获取必要的信息（此步骤可以无限循环）

　　原理大致相同。接下来，让我们正式了解web scraper工具。打开developer工具，单击Web scraper的选项卡栏，可以看到它分为三个部分：

　　请输入图片描述

　　创建新的站点地图：首先理解站点地图，字面上是网站map，它可以理解为一个入口地址，对应于网站和一个需求。如果您想获得关于知乎的问题的答案，请创建一个站点地图，将问题的地址设置为站点地图的起始URL，然后单击“创建站点地图”，您可以创建一个站点地图

　　请输入图片描述

　　站点地图：站点地图的集合。所有创建的站点地图都将显示在此处，您可以在此处输入站点地图以进行修改、数据捕获和其他操作

　　请输入图片描述

　　站点地图：进入站点地图后，可以执行一系列操作，如下图所示：

　　请输入图片描述

　　在红色框中添加新选择器是必不可少的步骤。什么是选择器？字面意思：选择器对应于网页的一部分，即收录我们想要采集的数据的部分

　　应该解释的是，一个站点地图下可以有多个选择器。每个选择器都可以收录子选择器。选择器只能对应一个标题或整个区域。此区域可能收录标题、副标题、作者信息、内容等

　　选择器：查看所有选择器

　　选择器图：查看当前站点地图的拓扑，根节点是什么，包括选择器下的几个选择器和子选择器

　　编辑元数据：您可以修改站点地图信息、标题和起始地址

　　Scratch：开始数据捕获

　　以CSV格式导出数据：以CSV格式导出捕获的数据

　　在这里，简单的理解就足够了。真正的知识来自实践，具体的操作案例具有说服力。这里有几个例子来解释具体用法

　　案例实践

　　简易水压试验hao123

　　从简单到深入，首先以最简单的示例作为入口，这只是进一步了解web服务的一种方式

　　需求背景：请参见下面hao123页面中的红色框。我们的要求是统计该区域中所有网站名称和链接地址，并最终将它们生成excel。因为这部分内容足够简单，当然，实际需要可能比这更复杂，而且手动统计这些数据的时间也非常快

　　请输入图片描述

　　启动操作

　　1、假设我们打开了hao123页面，打开了页面底部的开发者工具，并找到了web scraper选项卡

　　2、单击“创建站点地图”

　　请输入图片描述

　　3、然后输入站点地图名称和开始URL。这个名字只是为了我们的方便。它名为hao123（注意不支持中文）。起始URL是hao123的网址，然后单击“创建站点地图”

　　请输入图片描述

　　4、然后web刮板将自动定位站点地图。接下来，我们将添加一个选择器并单击“添加新选择器”

　　请输入图片描述

　　5、first为选择器分配一个ID，这只是一个易于识别的名称。我觉得这里很热。由于要获取名称和链接，请将类型设置为link。此类型是专门为网页链接准备的。选择链接类型后，将自动提取名称和链接这两个属性

　　请输入图片描述

　　6、然后单击选择，然后我们在网页上移动光标。我们将发现光标的颜色将变为绿色，表示它是当前选定的区域。我们将光标定位在需求中提到的列中的链接上，例如第一条标题新闻，然后单击此处。此零件将变为红色，表示它已被选中。我们的目的是选择多个，所以在选择这个之后，继续选择第二个，我们会发现这一行中的链接变成红色。没错，这就是我们想要的效果。然后单击“执行选择！”（数据预览是所选元素的标识符，可以手动修改。按类和元素名称确定元素，如div.p_name a）。最后，不要忘记检查multiple，这意味着您需要采集多个数据段

　　请输入图片描述

　　7、finally save，save selector。单击“图元预览”预览选定区域，然后单击“数据预览”在浏览器中预览捕获的数据。对于理解技术的学生来说，后面文本框中的内容非常清楚。这是XPath。我们可以直接编写XPath而无需鼠标操作

　　完整的操作流程如下：

　　请输入图片描述

　　8、在上一步之后，您可以实际导出。别担心。看看其他的操作。您可以在sitemap hao123下的选择器图中看到拓扑图。根是根选择器。当你创建一个站点地图时，会有一个自动的根节点，你可以看到它的子选择器，这是我们创建的热选择器

　　请输入图片描述

　　9、Scrape，开始提取数据

　　10、hao123站点地图下的@Browse可以通过浏览器直接查看最终捕获的结果，需要更新

　　请输入图片描述

　　11、最后，使用导出数据作为CSV以CSV格式导出，其中热列是标题，热href列是链接

　　请输入图片描述

　　试试怎么样

　　软件定制|网站construction |获取更多干货

0

2021-09-20

在线抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

在线抓取网页(初识webscraper开发人员安装方式(图)：请输入图片描述本地)

0 个评论

发起人

AI时代内容工厂

在线抓取网页(初识webscraper开发人员安装方式(图)：请输入图片描述本地)

0 个评论

发起人

相关问题