10分钟学会数据信息采集:工具安装、知乎为例介绍采集流程。

优采云 发布时间: 2020-08-08 13:38

  就目前而言,最为理想的爬虫工具就是自己编程的爬虫代码,几乎好多代码都可以写出很漂亮的爬虫代码,个人最为理想的就是python了,它可以用极少的简约的代码就可以写出高效的代码,当然象java、c、ruby、php等语言都可以写出爬虫,但是把握的成本要比python高好多;其次就是一些爬虫软件,例如优采云、优采云,以及要介绍的google插件——web scraper。

  Web scraper是google强悍插件库中十分强悍的一款数据采集插件,有强悍的反爬虫能力,只须要在插件上简单地设置好,可以快速抓取知乎、简书、豆瓣、大众、58等小型、中型、小型的80%以上的网站,包括文字、图片、表格等内容,最后快速导入csv格式文件。Google官方对web scraper给出的说明是:

  使用我们的扩充,您可以创建一个计划(sitemap),一个web站点应当怎样遍历,以及应当提取哪些。使用这种sitemaps,Web铲刀将相应地导航站点并提取所有数据。稍后可以将剪贴数据导入为CSV。

  本系列是关于web scraper的系类介绍,将会完整介绍流程介绍,用知乎、简书等网站为例介绍怎么采集文字、表格、多元素抓取、不规律分页抓取、二级页抓取、动态网站抓取,以及一些反爬虫技术等全部内容。

  Ok,今天就介绍web scraper的安装以及完整的抓取流程。

  一、web scraper的安装

  Web scraper是google浏览器的拓展插件,只须要在google浏览器上安装就可以了,介绍2种安装方式:

  1、打开google浏览器更多工具下的拓展程序——进入到chrome 网上应用点——搜索web scraper——然后点击安装就可以了,如下图所示。

  

  但是以上的安装方式须要翻墙到美国的网站上,所以须要用到vpn,如果有vpn的就可以用这些方式,如果没有就可以用下边的第二种方式:

  2、通过链接:/s/1skXkVN3,密码:m672,下载web scraper安装程序,然后直接将安装程序推入到chrome中的拓展程序就可以完成安装了。

  

  二、以知乎为例介绍web scraper完整抓取流程

  1、打开目标网站,这里以采集知乎第一大v张佳玮的关注对象为例,需要爬取的是关注对象的知乎名子、回答数目、发表文章数量、关注着数目。

  

  2、在网页上右击滑鼠,选择检测选项,或者用快捷键Ctrl + Shift + I / F12 都打开 Web Scraper。

  

  3、打开后点击create sitemap选择create sitemap创建一个站点地图。

  

  点击create sitemap后就得到如图页面,需要填写sitemap name,就是站点名子,这点可以随意写,自己看得懂就好;还须要填写start

  url,就是要抓取页面的链接。填写完就点击create sitemap,就完成创建站点地图了。

  

  具体如下图:

  

  4、设置一级选择器:选定采集范围

  接下来就是重中之重了。这里先介绍一下web scraper的抓取逻辑:需要设置一个一级选择器(selector),设定须要抓取的范围;在一级选择器下构建一个二级选择器(selector),设置须要抓取的元素和内容。

  以抓取张佳玮关注对象为例,我们的范围就是张佳玮关注的对象,那就须要为这个范围创建一个选择器;而张佳玮关注的对象的粉丝数、文章数量等内容就是二级选择器的内容。

  具体步骤如下:

  (1) Add new selector 创建一级选择器Selector:

  

  点击后就可以得到右图页面,所须要抓取的内容就在这个页面设置。

  

  l id:就是对这个选择器命名,同理,自己看得懂就好,这里就叫jiawei-scrap。

  l Type:就是要抓取的内容的类型,比如元素element/文本text/链接link/图片image/动态加载内Element Scroll Down等,这里是多个元素就选择element。

  l Selector:指的就是选择所要抓取的内容,点击select就可以在页面上选择内容,这个部份在下边具体介绍。

  l 勾选Multiple:勾选 Multiple 前面的小框,因为要选的是多个元素而不是单个元素,当勾选的时侯,爬虫插件会辨识页面下具有相同属性的内容;

  (2)这一步就须要设置选择的内容了,点击select选项下的select 得到右图:

  

  之后将键盘联通到须要选择的内容上,这时候须要的内容都会弄成红色就表示选取了,这里须要提示一下,如果是所须要的内容是多元素的,就须要将元素都选择,例如下图所示,绿色就表示选择的内容在红色范围内。

  

  选择内容范围后,点击滑鼠,选定的内容范围都会弄成如下图的蓝色:

  

  当一个内容变红后,我们就可以选择接下来的第二个内容,点击后,web scraper都会手动辨识你所要的内容,具有相同元素的内容就就会弄成绿色的。如下图所示:

  

  检查这个页面我们须要的内容全部弄成白色以后,就可以点击 Done selecting选项了,就可以得到如下图所示:

  

  点击save selector,保存设置。到这儿后,一级选择器就创建完成了。

  

  5、设置二级选择器:选择须要采集的元素内容。

  (1)点击右图中红框内容,就步入一级选择器jiawei-scrap下:

  

  (2)点击add new selector创建二级选择器,来选择具体内容。

  

  得到右图,这跟一级选择器的内容是相同的,但是设置是有区别的。

  

   id:代表抓取的是那个数组,可以取该数组的英语,比如要选「作者」,就写「writer」;

   Type:这里选Text选项,因为要抓取的是文本内容;

   Multiple:不要勾选 Multiple 前面的小框,因为在这里要抓取的是单个元素;

   保留设置:其余未提到部份保留默认设置。

  (3)点击select选项后,将键盘移到具体的元素上,元素都会弄成红色,如下图所示:

  

  在具体元素上点击后,元素都会弄成黑色的,就代表选取该内容了。

  

  (4)点击Done selecting后完成选择,再点击save selector后就可以完成关注对象知乎名子的选定了。

  

  重复以上操作,直到选完你想爬的数组。

  

  (5)点击红框部份可以看见采集的内容。

  

  Data preview可以看见采集内容,edit可以对设置的内容做更改。

  

  6、爬取数据

  (1)只须要设置完所有的 Selector,就可以开始爬数据了,点击 Scrape map,

  选泽scrape;:

  

  (2)点击后才会跳到时间设置页面,如下图,由于采集的数目不大,保存默认就可以,点击

  start scraping,就会跳出一个窗口,就开始即将采集了。

  

  (3)稍等一会就可以得到采集效果,如下图:

  

  (4)选择sitemap下的export data as csv选项就可以将采集的结果以表格的方式导入。

  

  表格疗效:

  

  上面是单页面采集,那假如要设置多个页面呢?需要如何设置呢?会在上篇文章中具体写下来。有疑问的同学可以咨询陌陌zds369466004.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线