WebScraper插件的安装使用方法及安装流程详解！！

优采云发布时间: 2021-04-25 01:19

　　Web Scraper是chrome网页数据提取插件，用于从网页提取数据。用户只需通过四个步骤即可通过插件建立页面数据提取规则，从而快速提取网页中所需的内容。 Web Scraper插件的整个爬网逻辑从设置第一级选择器并选择爬网范围开始，然后在设置第一级选择器下的第二级选择器之后，再次选择爬网字段，然后您可以抓取网页数据。插件捕获数据后，可以将数据导出为CSV文件，欢迎您免费下载。

　　插件的安装和使用

　　一、安装

　　1、编辑器在此处使用chrome浏览器，首先在标签页上输入[chrome：// extensions /]以输入chrome扩展名，解压缩在此页面上下载的Web Scraper插件，然后将其拖动进入扩展页面。

　　2、安装完成后，快速尝试该插件的特定功能。

　　3、当然，您可以先在设置页面上设置插件的存储设置和存储类型功能。

　　二、使用提取功能

　　安装完成后，爬网操作仅需四个步骤即可完成。具体过程如下：

　　1、打开网络抓取工具

　　首先，您需要使用该插件来提取网页数据，并且需要在开发人员工具模式下使用它。使用快捷键Ctrl + Shift + I / F12并在出现的开发工具窗口中找到与插件名称相同的列。

　　2、创建一个新的站点地图

　　点击创建新站点地图，其中有两个选项。导入站点地图是导入现成站点地图的指南。通常我们没有现成的站点地图，因此我们通常不选择它，只需选择创建站点地图即可。

　　然后执行以下两项操作：

　　（[1) Sitemap Name：表示您的站点地图适用于哪个网页，因此您可以根据自己的名称来命名该网页，但是您需要使用英文字母。例如，如果我从今天的标题中获取数据，那么我将用它来命名；

　　（[2) Sitemap URL：将网页链接复制到Star URL列。例如，在图片中，我将“ Wu Xiaobo Channel”的主页链接复制到此列，然后单击下面的create sitemap创建一个新的站点地图。

　　3、设置此站点地图

　　整个Web爬网程序的爬网逻辑如下：设置第一级选择器，选择爬网范围；在第一级选择器下设置第二级选择器，选择爬网字段，然后进行爬网。

　　对于文章，第一级选择器意味着您必须圈出文章这部分的元素。该元素可能包括标题，作者，发布时间，评论数等，然后我们将在第二层中选择选择器中所需的元素，例如标题，作者和阅读次数。

　　让我们分解设置主要和次要选择器的工作流程：

　　（[1)点击添加新选择器以创建一级选择器。

　　然后按照以下步骤操作：

　　-输入id：id代表您抓取的整个范围，例如，这里是文章，我们可以将其命名为wuxiaobo-articles;

　　-选择类型：类型代表您抓取的零件的类型，例如element / text / link，因为这是对文章整个元素范围的选择，因此我们需要使用Element首先选择整个（如果此网页需要滑动“加载更多”，请选择“元素向下滚动”；

　　-检查多个元素：选中“多个元素”前面的小框，因为您想选择多个元素而不是单个元素。当我们检查时，采集器插件将帮助我们识别同一类型的多篇文章。文章;

　　-保留设置：其余未提及的部分保留默认设置。

　　（[2)点击选择以选择范围，然后按照以下步骤操作：

　　-选择范围：使用鼠标选择要爬网的数据范围，绿色为要选择的区域，用鼠标单击后该区域变为红色；该区域已选中；

　　-多项选择：不要只选择一项，还必须选择以下项，否则抓取的数据将只有一行；

　　-完成选择：记得单击“完成选择”；

　　-保存：单击保存选择器。

　　（[3)设置此1级选择器后，单击以设置2级选择器，然后执行以下步骤：

　　-新选择器：单击添加新选择器；

　　-输入id：id代表您抓取的字段，因此您可以使用该字段的英语，例如，如果我要选择“作者”，我将写“ writer”；

　　-选择类型：选择文本，因为您要抓取的是文本；

　　-不要选中“ Multiple”：不要选中“ Multiple”前面的小方框，因为我们要在这里抓取的是单个元素；

　　-保留设置：其余未提及的部分保留默认设置。

　　（[4)单击选择，然后单击要爬网的字段，然后执行以下步骤：

　　-选择字段：此处要爬网的字段是单个字段，您可以通过用鼠标单击该字段来选择它。例如，如果要爬网标题，请用鼠标单击某篇文章的标题文章，并且该字段所在的区域将变为红色；

　　-完成选择：记得单击“完成选择”；

　　-保存：单击保存选择器。

　　（[5)重复上述操作，直到选择了要爬坡的字段。

　　4、抓取数据

　　（[1)要抓取数据后，只需设置所有选择器即可开始：

　　单击“抓取”，然后单击“开始抓取”，将弹出一个小窗口，并且采集器将开始工作。您将获得收录所有所需数据的列表。

　　（2)如果要对数据进行排序，例如按读数，喜欢，作者等进行排序，以使数据更清晰，则可以单击“将数据导出为CSV并将其导入Excel表”

　　（[3)导入Excel表后，您可以过滤数据。

　　插件功能

　　1、抓取多个页面

　　2、读取的数据存储在本地存储或CouchDB中

　　3、多种数据选择类型

　　4、从动态页面（JavaScript + AJAX）提取数据

　　5、浏览抓取的数据

　　6、将数据导出为CSV

　　7、导入，导出站点地图

　　8、仅取决于Chrome浏览器

0

2021-04-25

网站内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

WebScraper插件的安装使用方法及安装流程详解！！

0 个评论

发起人