WebScraper插件的安装使用方法及安装流程详解!!

优采云 发布时间: 2021-04-25 01:19

  WebScraper插件的安装使用方法及安装流程详解!!

  Web Scraper是chrome网页数据提取插件,用于从网页提取数据。用户只需通过四个步骤即可通过插件建立页面数据提取规则,从而快速提取网页中所需的内容。 Web Scraper插件的整个爬网逻辑从设置第一级选择器并选择爬网范围开始,然后在设置第一级选择器下的第二级选择器之后,再次选择爬网字段,然后您可以抓取网页数据。插件捕获数据后,可以将数据导出为CSV文件,欢迎您免费下载。

  

  插件的安装和使用

  一、安装

  1、编辑器在此处使用chrome浏览器,首先在标签页上输入[chrome:// extensions /]以输入chrome扩展名,解压缩在此页面上下载的Web Scraper插件,然后将其拖动进入扩展页面。

  

  2、安装完成后,快速尝试该插件的特定功能。

  

  3、当然,您可以先在设置页面上设置插件的存储设置和存储类型功能。

  

  二、使用提取功能

  安装完成后,爬网操作仅需四个步骤即可完成。具体过程如下:

  1、打开网络抓取工具

  首先,您需要使用该插件来提取网页数据,并且需要在开发人员工具模式下使用它。使用快捷键Ctrl + Shift + I / F12并在出现的开发工具窗口中找到与插件名称相同的列。

  

  2、创建一个新的站点地图

  点击创建新站点地图,其中有两个选项。导入站点地图是导入现成站点地图的指南。通常我们没有现成的站点地图,因此我们通常不选择它,只需选择创建站点地图即可。

  

  然后执行以下两项操作:

  ([1) Sitemap Name:表示您的站点地图适用于哪个网页,因此您可以根据自己的名称来命名该网页,但是您需要使用英文字母。例如,如果我从今天的标题中获取数据,那么我将用它来命名;

  ([2) Sitemap URL:将网页链接复制到Star URL列。例如,在图片中,我将“ Wu Xiaobo Channel”的主页链接复制到此列,然后单击下面的create sitemap创建一个新的站点地图。

  

  3、设置此站点地图

  整个Web爬网程序的爬网逻辑如下:设置第一级选择器,选择爬网范围;在第一级选择器下设置第二级选择器,选择爬网字段,然后进行爬网。

  对于文章,第一级选择器意味着您必须圈出文章这部分的元素。该元素可能包括标题,作者,发布时间,评论数等,然后我们将在第二层中选择选择器中所需的元素,例如标题,作者和阅读次数。

  

  让我们分解设置主要和次要选择器的工作流程:

  ([1)点击添加新选择器以创建一级选择器。

  然后按照以下步骤操作:

  -输入id:id代表您抓取的整个范围,例如,这里是文章,我们可以将其命名为wuxiaobo-articles;

  -选择类型:类型代表您抓取的零件的类型,例如element / text / link,因为这是对文章整个元素范围的选择,因此我们需要使用Element首先选择整个(如果此网页需要滑动“加载更多”,请选择“元素向下滚动”;

  -检查多个元素:选中“多个元素”前面的小框,因为您想选择多个元素而不是单个元素。当我们检查时,采集器插件将帮助我们识别同一类型的多篇文章。文章;

  -保留设置:其余未提及的部分保留默认设置。

  

  ([2)点击选择以选择范围,然后按照以下步骤操作:

  -选择范围:使用鼠标选择要爬网的数据范围,绿色为要选择的区域,用鼠标单击后该区域变为红色;该区域已选中;

  -多项选择:不要只选择一项,还必须选择以下项,否则抓取的数据将只有一行;

  -完成选择:记得单击“完成选择”;

  -保存:单击保存选择器。

  

  ([3)设置此1级选择器后,单击以设置2级选择器,然后执行以下步骤:

  -新选择器:单击添加新选择器;

  -输入id:id代表您抓取的字段,因此您可以使用该字段的英语,例如,如果我要选择“作者”,我将写“ writer”;

  -选择类型:选择文本,因为您要抓取的是文本;

  -不要选中“ Multiple”:不要选中“ Multiple”前面的小方框,因为我们要在这里抓取的是单个元素;

  -保留设置:其余未提及的部分保留默认设置。

  

  ([4)单击选择,然后单击要爬网的字段,然后执行以下步骤:

  -选择字段:此处要爬网的字段是单个字段,您可以通过用鼠标单击该字段来选择它。例如,如果要爬网标题,请用鼠标单击某篇文章的标题文章,并且该字段所在的区域将变为红色;

  -完成选择:记得单击“完成选择”;

  -保存:单击保存选择器。

  ([5)重复上述操作,直到选择了要爬坡的字段。

  4、抓取数据

  ([1)要抓取数据后,只需设置所有选择器即可开始:

  单击“抓取”,然后单击“开始抓取”,将弹出一个小窗口,并且采集器将开始工作。您将获得收录所有所需数据的列表。

  

  (2)如果要对数据进行排序,例如按读数,喜欢,作者等进行排序,以使数据更清晰,则可以单击“将数据导出为CSV并将其导入Excel表”

  ([3)导入Excel表后,您可以过滤数据。

  

  插件功能

  1、抓取多个页面

  2、读取的数据存储在本地存储或CouchDB中

  3、多种数据选择类型

  4、从动态页面(JavaScript + AJAX)提取数据

  5、浏览抓取的数据

  6、将数据导出为CSV

  7、导入,导出站点地图

  8、仅取决于Chrome浏览器

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线