网站程序自带的采集器采集文章(Google研发的数据采集插件，自带反爬虫能力，非常容易上手)

优采云发布时间: 2022-04-11 10:18

　　几乎每个人都有从网上批量获取信息的需求，比如需要批量采集网站邮箱，批量采集1688、58个商户信息都一样城市，*敏*感*词*，如果你想学习编程语言？

　　几乎每个人都有从网上批量获取信息的需求，比如需要批量采集网站邮箱，批量采集1688、58个商户信息都一样城市，联系信息，如果您想学习编程语言？我看到很多人连软件都不会安装，更别说一门完整的编程语言，还要学会纠正网络知识；学习优采云软件？一是贵，二是操作很麻烦。

　　今天推荐一个谷歌开发的data采集插件。这个插件可以自带cookies和反爬能力。这是非常容易使用。按照流程，基本10分钟就能学会。我也经常在采集微博、知乎、豆瓣、58同城、大众点评、汽车之家等网站上使用它的内容，非常方便。

　　网络爬虫是谷歌强大的插件库中一个非常强大的数据采集插件。它具有强大的反爬虫能力。只需在插件上简单设置，即可快速抓取知乎、短书、豆瓣、大众、58及90%以上的大中小网站，包括文字、图片、表格等内容，最后快速导出csv格式文件。谷歌官方对网络爬虫的描述是：

　　使用我们的扩展，您可以创建一个网站应该如何遍历以及应该提取什么的计划（站点地图）。使用这些站点地图，网络爬虫将相应地导航站点并提取所有数据。剪辑数据可以稍后导出为 CSV。

　　本系列是关于网络爬虫的介绍。它将完整介绍该过程。以知乎、简书等网站为例介绍如何采集文字、表格、多元素抓取、不规则分页爬取、二次分页爬取、动态网站爬取，以及一些反爬取技术。

　　好了，今天就给大家介绍一下网络爬虫的安装以及完整的爬取过程。

　　一、网络爬虫的安装

　　Web scraper 是谷歌浏览器的扩展插件。它只需要安装在谷歌浏览器上。介绍两种安装方式：

　　1、在google浏览器中打开more tools下的扩展——进入chrome在线应用点——搜索web scraper——然后点击安装，如下图。

　　不过上面的安装方法需要翻墙到国外的网站，所以需要使用vpn，如果有vpn的话可以用这个方法，如果没有的话可以用下面的第二种方法：

　　2、传递链接：密码：m672，下载网络爬虫安装程序。然后将安装程序直接拖入chrome中的扩展中即可完成安装。

　　完成后可立即使用。

　　二、以知乎为例介绍网络爬虫的完整爬取流程

　　1、打开目标网站，这里以采集知乎第一大v张家伟的follower为例，需要爬取的是follower的名字知乎、答案数、文章帖子数和关注者数。

　　2、在网页上右击选择Inspect选项，或者使用快捷键Ctrl+Shift+I/F12打开Web Scraper。

　　3、打开后点击创建站点地图，选择创建站点地图，创建站点地图。

　　点击create sitemap后，会得到如图所示的页面。您需要填写站点地图名称，即站点名称。可以随便写，自己看懂；还需要填写start url，也就是抓取页面的链接。填写完成后点击create sitemap，完成sitemap的创建。

　　详细情况如下：

　　4、设置主选择器：选择采集范围

　　接下来是重中之重。这里先介绍一下网络爬虫的爬取逻辑：需要设置一个一级选择器（selector）来设置要爬取的范围；在一级选择器下创建二级选择器（selector），并设置需要爬取的元素和内容。

　　以张家伟的以下对象为例。我们的作用域是张家伟跟随的对象，所以我们需要为这个作用域创建一个选择器；而张嘉伟关注对象的关注人数和文章为二次选择。设备的内容。具体步骤如下：

　　(1) 添加新选择器创建一级选择器Selector：

　　点击后可以得到下面的页面，需要抓取的内容就设置在这个页面上。

　　id：命名这个选择器。出于同样的原因，您可以自己理解它。这里叫加味废品。

　　类型：就是要抓取的内容的类型，比如元素元素/文本文本/链接链接/图片图片/动态加载中的元素向下滚动等。这里如果有多个元素，选择元素。

　　选择器：指选择要抓取的内容，点击选择可以选择页面上的内容。这部分将在下面详细描述。

　　勾选Multiple：勾选Multiple前面的小框，因为要选择多个元素而不是单个元素，勾选后，爬虫插件会识别页面下具有相同属性的内容；

　　(2)这一步需要设置选中的内容，点击select选项下的select，得到如下图：

　　然后将鼠标移动到需要选择的内容上。这时候你需要的内容会变成绿色，表示被选中。这里需要提醒一下。如果您需要的内容是多元素，则需要选择所有元素。例如，如下图所示，绿色表示选中的内容在绿色范围内。

　　选择内容范围后，点击鼠标，选中的内容范围会变成红色，如下图：

　　当一个内容变为红色时，我们可以选择下一个内容。点击后，网络爬虫会自动识别你想要的内容，元素相同的内容会变成红色。如下所示：

　　检查此页面上我们需要的所有内容都变为红色后，您可以单击完成选择选项，您可以得到以下图片：

　　单击保存选择器以保存设置。至此，第一级选择器就创建好了。

　　5、设置二级选择器：选择需要采集的元素内容。

　　（1)点击下图中红框进入一级选择器jiawei-scrap：

　　（2)单击添加新选择器以创建辅助选择器以选择特定内容。

　　得到如下图，和一级选择器的内容一样，只是设置不同。

　　id：表示正在抓取哪个字段，可以取字段的英文，比如要选择“author”，就写“writer”；

　　类型：这里选择Text选项，因为要抓取的文本内容；

　　Multiple：Multiple前面的小框不要勾选，因为这里是要抓取的单个元素；

　　保留设置：保留其余未提及部分的默认设置。

　　(3)点击选择选项后，将鼠标移动到特定元素上，该元素会变成*敏*感*词*，如下图：

　　点击特定元素后，该元素会变为红色，表示内容被选中。

　　(4)点击完成选择完成选择，然后点击保存选择器完成对感兴趣对象名称的选择知乎。

　　重复以上操作，直到选择好要爬的田地。

　　（5)点击红框查看采集的内容。

　　数据预览可以看到采集的内容，编辑可以修改设置的内容。

　　6、爬取数据

　　(1)只需要设置所有的Selector，就可以开始爬取数据了，点击爬图，

　　选择泽刮；：

　　（2)点击后会跳转到时间设置页面，如下图，因为采集个数不大，可以保存默认，点击开始抓取，一个窗口会弹出，正式开始采集已经。

　　(3)过一会就可以得到采集的效果了，如下图：

　　（4)选择sitemap下的export data as csv选项，将采集的结果以表格的形式导出。

　　表格效果：

　　以上就是以知乎为例介绍采集的基本步骤和设置。虽然有很多细节，但经过仔细计算，步骤并不多。基本上10分钟就能完全掌握采集。不管是什么类型的网站，设置的基本流程大致相同，有兴趣的可以仔细研究一下。

0

2022-04-11

网站程序自带的采集器采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站程序自带的采集器采集文章(Google研发的数据采集插件，自带反爬虫能力，非常容易上手)

0 个评论

发起人

AI时代内容工厂

网站程序自带的采集器采集文章(Google研发的数据采集插件，自带反爬虫能力，非常容易上手)

0 个评论

发起人

相关问题