10分钟学会数据信息采集：工具安装、知乎为例介绍采集流程。

优采云发布时间: 2020-08-09 08:38

　　就目前而言，最为理想的爬虫工具就是自己编程的爬虫代码，几乎好多代码都可以写出很漂亮的爬虫代码，个人最为理想的就是python了，它可以用极少的简约的代码就可以写出高效的代码，当然象java、c、ruby、php等语言都可以写出爬虫，但是把握的成本要比python高好多；其次就是一些爬虫软件，例如优采云、优采云，以及要介绍的google插件——web scraper。

　　Web scraper是google强悍插件库中十分强悍的一款数据采集插件，有强悍的反爬虫能力，只须要在插件上简单地设置好，可以快速抓取知乎、简书、豆瓣、大众、58等小型、中型、小型的80%以上的网站，包括文字、图片、表格等内容，最后快速导入csv格式文件。Google官方对web scraper给出的说明是：

　　使用我们的扩充，您可以创建一个计划(sitemap)，一个web站点应当怎样遍历，以及应当提取哪些。使用这种sitemaps,Web铲刀将相应地导航站点并提取所有数据。稍后可以将剪贴数据导入为CSV。

　　本系列是关于web scraper的系类介绍，将会完整介绍流程介绍，用知乎、简书等网站为例介绍怎么采集文字、表格、多元素抓取、不规律分页抓取、二级页抓取、动态网站抓取，以及一些反爬虫技术等全部内容。

　　Ok，今天就介绍web scraper的安装以及完整的抓取流程。

　　一、web scraper的安装

　　Web scraper是google浏览器的拓展插件，只须要在google浏览器上安装就可以了，介绍2种安装方式：

　　1、打开google浏览器更多工具下的拓展程序——进入到chrome 网上应用点——搜索web scraper——然后点击安装就可以了，如下图所示。

　　但是以上的安装方式须要翻墙到美国的网站上，所以须要用到vpn，如果有vpn的就可以用这些方式，如果没有就可以用下边的第二种方式：

　　2、通过链接：/s/1skXkVN3，密码：m672，下载web scraper安装程序，然后直接将安装程序推入到chrome中的拓展程序就可以完成安装了。

　　二、以知乎为例介绍web scraper完整抓取流程

　　1、打开目标网站，这里以采集知乎第一大v张佳玮的关注对象为例，需要爬取的是关注对象的知乎名子、回答数目、发表文章数量、关注着数目。

　　2、在网页上右击滑鼠，选择检测选项，或者用快捷键Ctrl + Shift + I / F12 都打开 Web Scraper。

　　3、打开后点击create sitemap选择create sitemap创建一个站点地图。

　　点击create sitemap后就得到如图页面，需要填写sitemap name，就是站点名子，这点可以随意写，自己看得懂就好；还须要填写start

　　url，就是要抓取页面的链接。填写完就点击create sitemap，就完成创建站点地图了。

　　具体如下图：

　　4、设置一级选择器：选定采集范围

　　接下来就是重中之重了。这里先介绍一下web scraper的抓取逻辑：需要设置一个一级选择器（selector），设定须要抓取的范围；在一级选择器下构建一个二级选择器（selector），设置须要抓取的元素和内容。

　　以抓取张佳玮关注对象为例，我们的范围就是张佳玮关注的对象，那就须要为这个范围创建一个选择器；而张佳玮关注的对象的粉丝数、文章数量等内容就是二级选择器的内容。

　　具体步骤如下：

　　（1） Add new selector 创建一级选择器Selector：

　　点击后就可以得到右图页面，所须要抓取的内容就在这个页面设置。

　　l id：就是对这个选择器命名，同理，自己看得懂就好，这里就叫jiawei-scrap。

　　l Type：就是要抓取的内容的类型，比如元素element／文本text／链接link/图片image/动态加载内Element Scroll Down等，这里是多个元素就选择element。

　　l Selector：指的就是选择所要抓取的内容，点击select就可以在页面上选择内容，这个部份在下边具体介绍。

　　l 勾选Multiple：勾选 Multiple 前面的小框，因为要选的是多个元素而不是单个元素，当勾选的时侯，爬虫插件会辨识页面下具有相同属性的内容；

　　（2）这一步就须要设置选择的内容了，点击select选项下的select 得到右图：

　　之后将键盘联通到须要选择的内容上，这时候须要的内容都会弄成红色就表示选取了，这里须要提示一下，如果是所须要的内容是多元素的，就须要将元素都选择，例如下图所示，绿色就表示选择的内容在红色范围内。

　　选择内容范围后，点击滑鼠，选定的内容范围都会弄成如下图的蓝色：

　　当一个内容变红后，我们就可以选择接下来的第二个内容，点击后，web scraper都会手动辨识你所要的内容，具有相同元素的内容就就会弄成绿色的。如下图所示：

　　检查这个页面我们须要的内容全部弄成白色以后，就可以点击 Done selecting选项了，就可以得到如下图所示：

　　点击save selector，保存设置。到这儿后，一级选择器就创建完成了。

　　5、设置二级选择器：选择须要采集的元素内容。

　　（1）点击右图中红框内容，就步入一级选择器jiawei-scrap下：

　　（2）点击add new selector创建二级选择器，来选择具体内容。

　　得到右图，这跟一级选择器的内容是相同的，但是设置是有区别的。

　　 id：代表抓取的是那个数组，可以取该数组的英语，比如要选「作者」，就写「writer」；

　　 Type：这里选Text选项，因为要抓取的是文本内容；

　　 Multiple：不要勾选 Multiple 前面的小框，因为在这里要抓取的是单个元素；

　　保留设置：其余未提到部份保留默认设置。

　　（3）点击select选项后，将键盘移到具体的元素上，元素都会弄成红色，如下图所示：

　　在具体元素上点击后，元素都会弄成黑色的，就代表选取该内容了。

　　（4）点击Done selecting后完成选择，再点击save selector后就可以完成关注对象知乎名子的选定了。

　　重复以上操作，直到选完你想爬的数组。

　　（5）点击红框部份可以看见采集的内容。

　　Data preview可以看见采集内容，edit可以对设置的内容做更改。

　　6、爬取数据

　　（1）只须要设置完所有的 Selector，就可以开始爬数据了，点击 Scrape map，

　　选泽scrape；：

　　（2）点击后才会跳到时间设置页面，如下图，由于采集的数目不大，保存默认就可以，点击

　　start scraping，就会跳出一个窗口，就开始即将采集了。

　　（3）稍等一会就可以得到采集效果，如下图：

　　（4）选择sitemap下的export data as csv选项就可以将采集的结果以表格的方式导入。

　　表格疗效：

　　上面是单页面采集，那假如要设置多个页面呢？需要如何设置呢？会在上篇文章中具体写下来。有疑问的同学可以咨询陌陌zds369466004.

0

2020-08-09

文章采集完

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

10分钟学会数据信息采集：工具安装、知乎为例介绍采集流程。

0 个评论

发起人

AI时代内容工厂

10分钟学会数据信息采集：工具安装、知乎为例介绍采集流程。

0 个评论

发起人

相关问题