自动采集网站内容(Google研发的数据采集插件，这款插件自带反爬虫能力)

优采云发布时间: 2021-09-06 10:15

　　指南：

　　【几乎每个人都有从互联网上批量获取信息的需求，比如批量邮件采集网站，批量的商家信息和采集1688、58同城的*敏*感*词*，如果让你学习编程语言？

　　几乎每个人都有从网上批量获取信息的需求，比如批量邮件采集网站、批量采集1688、58 同城的商家信息和*敏*感*词*，如果你让你去学编程语言？我想很多人连软件怎么安装都不知道，更别说一门完整的编程语言，还要学习正确的网页知识；学习优采云软件？一个很贵，另一个操作起来很麻烦。

　　今天推荐一个谷歌开发的数据采集插件。这个插件可以带有 cookie 和反爬虫功能。这是非常容易使用。按照流程，基本上10分钟就可以学会了。我一般用采集微博、知乎、豆瓣、58同城、大众点评、汽车之家等网站，很方便。

　　Web scraper 是 Google 强大的插件库中非常强大的数据采集插件。它具有强大的反爬虫能力。只需在插件上进行设置，即可快速抓取知乎、简书、豆瓣、大众、58等大、中、小等网站90%以上的内容，包括文字、图片、表格和其他内容，最后快速导出csv格式文件。谷歌官方给出的网络爬虫描述是：

　　使用我们的扩展程序，您可以创建计划（站点地图）、应如何遍历网站以及应提取的内容。使用这些站点地图，网络爬虫将相应地导航站点并提取所有数据。您可以稍后将剪辑的数据导出为 CSV。

　　这个系列是关于网络爬虫的介绍。完整介绍流程，以知乎、简书等网站为例介绍如何采集文本、表格、多元素爬取、不规则分页爬取、副页爬取、动态网站爬虫，以及一些反爬虫技术。

　　好的，今天就来介绍一下网络爬虫的安装和完整的爬取过程。

　　一、web 爬虫安装

　　网络爬虫是谷歌浏览器的扩展插件，您只需在谷歌浏览器上安装即可。介绍两种安装方式：

　　1、打开google浏览器更多工具下的扩展程序-进入chrome web应用点-搜索web scraper-点击安装，如下图

　　但是上面的安装方法需要翻墙到网站国外，所以需要使用vpn，如果你有vpn可以用这种方法，如果没有可以用下面第二种方法：

　　2、通过链接：密码：m672，下载网络爬虫安装程序。然后直接将安装程序拖入chrome中的扩展程序即可完成安装。

　　完成后即可使用。

　　二、以知乎为例介绍网络爬虫的完整爬取过程

　　1、Open目标网站，这里以采集知乎第一大v张佳玮的follower为例，需要爬取的是知乎名字，回答数，文章关注@Quantity，关注数量。

　　2、在网页上右击，选择勾选选项，或者使用快捷键Ctrl+Shift+I/F12打开Web Scraper。

　　3、打开后，点击创建站点地图，选择创建站点地图，创建站点地图。

　　点击create sitemap后，会出现如图所示的页面。您需要填写站点地图名称，即站点的名称。你可以随便写，只要你能看懂；还需要填写start url，就是抓取页面的链接。填写完毕后，点击创建站点地图，完成站点地图的创建。

　　详情如下：

　　4、设置一级选择器：选择采集范围

　　接下来是重中之重。这里先介绍一下网络爬虫的爬取逻辑：需要设置一级选择器（selector），设置需要爬取的范围；在一级选择器下创建二级选择器（selector），并设置需要爬取Elements和content。

　　以抓取张嘉伟的以下为例。我们的范围是张家伟关注的目标。然后我们需要为这个范围创建一个选择器；而张嘉伟关注的粉丝数，文章@number等是次要选择器的内容。具体步骤如下：

　　(1)添加新选择器创建一级选择器选择器：

　　点击后可以得到如下页面，需要抓取的内容都设置在这个页面上。

　　id：就叫选择器，同理，只要你自己能理解，这里就叫jiawei-scrap。

　　Type：是要抓取的内容的类型，比如element element/text/link link/picture image/Element Scroll Down 动态加载等，这里如果有多个元素，选择element。

　　Selector：指选择要抓取的内容。单击选择以选择页面上的内容。下面详细介绍这部分。

　　Check Multiple：勾选 Multiple 前面的小框，因为要选择多个元素而不是单个元素。勾选后，爬虫插件会识别页面下具有相同属性的内容；

　　(2)这一步需要设置选中的内容，点击选择选项下的选择，得到如下图：

　　之后，将鼠标移动到需要选择的内容上，需要的内容会变成绿色表示被选中。这里需要提醒一下，如果你需要的内容是多元素的，你需要把元素都改为Select both。例如如下图，绿色表示选中的内容在绿色范围内。

　　选中内容范围后，点击鼠标，选中的内容范围会变成红色，如下图：

　　当一个内容变成红色时，我们可以选择下一秒的内容。点击后，网络爬虫会自动识别你想要的内容，元素相同的内容都会变成红色。如下图所示：

　　确认页面上我们需要的所有内容都变成红色后，点击完成选择选项，可以得到如下图：

　　点击保存选择器保存设置。之后，一级选择器就创建好了。

　　5、设置二级选择器：选择需要采集的元素内容。

　　（1)点击下图中红框内容进入一级选择器jiawei-scrap：

　　（2)点击添加新选择器创建二级选择器来选择特定内容。

　　得到如下图，与一级选择器的内容相同，只是设置不同。

　　id：表示要获取的字段。您可以参加该领域的英语。比如要选择“作者”，就写“作者”；

　　Type：这里选择Text选项，因为你要抓取的是文本内容；

　　Multiple：Multiple 前面的小方框不要打勾，因为这里是要捕获的单个元素；

　　保留设置：保留其他未提及的默认设置。

　　(3)点击选择选项后，将鼠标移动到特定元素上，该元素会变成*敏*感*词*，如下图：

　　点击特定元素后，该元素会变成红色，表示内容被选中。

　　（4)点击Done选择完成选择，然后点击保存选择器完成关注者知乎name的选择。

　　重复以上操作，直到选择好要攀爬的场地。

　　（5)点击红框可以看到采集的内容。

　　数据预览可以看到采集的内容，编辑可以修改设置内容。

　　6、爬取数据

　　（1)只需要设置好所有的selector，就可以开始爬取数据了，点击Scrape map，

　　选择刮取；：

　　(2)点击后会跳转到时间设置页面，如下图。由于采集数量不多，可以保存默认。点击开始抓取，会出现一个窗口弹出，官方采集Up。

　　(3)稍等片刻，得到采集效果，如下图：

　　(4)在sitemap下选择export data as csv选项，以表格的形式导出采集的结果。

　　文章1@

　　表格效果：

　　文章2@

　　以上是以知乎为例介绍采集的基本步骤和设置。虽然细节很多，但是仔细算算下来，真的没有多少步骤。基本上10分钟就可以完全掌握采集的流程；不管网站的类型如何，设置的基本过程大致相同。有兴趣的可以深入研究一下。

0

2021-09-06

自动采集网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动采集网站内容(Google研发的数据采集插件，这款插件自带反爬虫能力)

0 个评论

发起人

AI时代内容工厂

自动采集网站内容(Google研发的数据采集插件，这款插件自带反爬虫能力)

0 个评论

发起人

相关问题