网站程序自带的采集器采集文章(Google研发的数据采集插件,自带反爬虫能力,非常容易上手)
优采云 发布时间: 2022-04-11 10:18网站程序自带的采集器采集文章(Google研发的数据采集插件,自带反爬虫能力,非常容易上手)
几乎每个人都有从网上批量获取信息的需求,比如需要批量采集网站邮箱,批量采集1688、58个商户信息都一样城市,*敏*感*词*,如果你想学习编程语言?
几乎每个人都有从网上批量获取信息的需求,比如需要批量采集网站邮箱,批量采集1688、58个商户信息都一样城市,联系信息,如果您想学习编程语言?我看到很多人连软件都不会安装,更别说一门完整的编程语言,还要学会纠正网络知识;学习优采云 软件?一是贵,二是操作很麻烦。
今天推荐一个谷歌开发的data采集插件。这个插件可以自带cookies和反爬能力。这是非常容易使用。按照流程,基本10分钟就能学会。我也经常在采集微博、知乎、豆瓣、58同城、大众点评、汽车之家等网站上使用它的内容,非常方便。
网络爬虫是谷歌强大的插件库中一个非常强大的数据采集插件。它具有强大的反爬虫能力。只需在插件上简单设置,即可快速抓取知乎、短书、豆瓣、大众、58及90%以上的大中小网站,包括文字、图片、表格等内容,最后快速导出csv格式文件。谷歌官方对网络爬虫的描述是:
使用我们的扩展,您可以创建一个网站应该如何遍历以及应该提取什么的计划(站点地图)。使用这些站点地图,网络爬虫将相应地导航站点并提取所有数据。剪辑数据可以稍后导出为 CSV。
本系列是关于网络爬虫的介绍。它将完整介绍该过程。以知乎、简书等网站为例介绍如何采集文字、表格、多元素抓取、不规则分页爬取、二次分页爬取、动态网站 爬取,以及一些反爬取技术。
好了,今天就给大家介绍一下网络爬虫的安装以及完整的爬取过程。
一、网络爬虫的安装
Web scraper 是谷歌浏览器的扩展插件。它只需要安装在谷歌浏览器上。介绍两种安装方式:
1、在google浏览器中打开more tools下的扩展——进入chrome在线应用点——搜索web scraper——然后点击安装,如下图。
不过上面的安装方法需要翻墙到国外的网站,所以需要使用vpn,如果有vpn的话可以用这个方法,如果没有的话可以用下面的第二种方法:
2、传递链接:密码:m672,下载网络爬虫安装程序。然后将安装程序直接拖入chrome中的扩展中即可完成安装。
完成后可立即使用。
二、以知乎为例介绍网络爬虫的完整爬取流程
1、打开目标网站,这里以采集知乎第一大v张家伟的follower为例,需要爬取的是follower的名字知乎 、答案数、文章 帖子数和关注者数。
2、在网页上右击选择Inspect选项,或者使用快捷键Ctrl+Shift+I/F12打开Web Scraper。
3、 打开后点击创建站点地图,选择创建站点地图,创建站点地图。
点击create sitemap后,会得到如图所示的页面。您需要填写站点地图名称,即站点名称。可以随便写,自己看懂;还需要填写start url,也就是抓取页面的链接。填写完成后点击create sitemap,完成sitemap的创建。
详细情况如下:
4、设置主选择器:选择采集范围
接下来是重中之重。这里先介绍一下网络爬虫的爬取逻辑:需要设置一个一级选择器(selector)来设置要爬取的范围;在一级选择器下创建二级选择器(selector),并设置需要爬取的元素和内容。
以张家伟的以下对象为例。我们的作用域是张家伟跟随的对象,所以我们需要为这个作用域创建一个选择器;而张嘉伟关注对象的关注人数和文章为二次选择。设备的内容。具体步骤如下:
(1) 添加新选择器创建一级选择器Selector:
点击后可以得到下面的页面,需要抓取的内容就设置在这个页面上。
id:命名这个选择器。出于同样的原因,您可以自己理解它。这里叫加味废品。
类型:就是要抓取的内容的类型,比如元素元素/文本文本/链接链接/图片图片/动态加载中的元素向下滚动等。这里如果有多个元素,选择元素。
选择器:指选择要抓取的内容,点击选择可以选择页面上的内容。这部分将在下面详细描述。
勾选Multiple:勾选Multiple前面的小框,因为要选择多个元素而不是单个元素,勾选后,爬虫插件会识别页面下具有相同属性的内容;
(2)这一步需要设置选中的内容,点击select选项下的select,得到如下图:
然后将鼠标移动到需要选择的内容上。这时候你需要的内容会变成绿色,表示被选中。这里需要提醒一下。如果您需要的内容是多元素,则需要选择所有元素。例如,如下图所示,绿色表示选中的内容在绿色范围内。
选择内容范围后,点击鼠标,选中的内容范围会变成红色,如下图:
当一个内容变为红色时,我们可以选择下一个内容。点击后,网络爬虫会自动识别你想要的内容,元素相同的内容会变成红色。如下所示:
检查此页面上我们需要的所有内容都变为红色后,您可以单击完成选择选项,您可以得到以下图片:
单击保存选择器以保存设置。至此,第一级选择器就创建好了。
5、设置二级选择器:选择需要采集的元素内容。
(1)点击下图中红框进入一级选择器jiawei-scrap:
(2)单击添加新选择器以创建辅助选择器以选择特定内容。
得到如下图,和一级选择器的内容一样,只是设置不同。
id:表示正在抓取哪个字段,可以取字段的英文,比如要选择“author”,就写“writer”;
类型:这里选择Text选项,因为要抓取的文本内容;
Multiple:Multiple前面的小框不要勾选,因为这里是要抓取的单个元素;
保留设置:保留其余未提及部分的默认设置。
(3)点击选择选项后,将鼠标移动到特定元素上,该元素会变成*敏*感*词*,如下图:
点击特定元素后,该元素会变为红色,表示内容被选中。
(4)点击完成选择完成选择,然后点击保存选择器完成对感兴趣对象名称的选择知乎。
重复以上操作,直到选择好要爬的田地。
(5)点击红框查看采集的内容。
数据预览可以看到采集的内容,编辑可以修改设置的内容。
6、爬取数据
(1)只需要设置所有的Selector,就可以开始爬取数据了,点击爬图,
选择泽刮;:
(2)点击后会跳转到时间设置页面,如下图,因为采集个数不大,可以保存默认,点击开始抓取,一个窗口会弹出,正式开始采集 已经。
(3)过一会就可以得到采集的效果了,如下图:
(4)选择sitemap下的export data as csv选项,将采集的结果以表格的形式导出。
表格效果:
以上就是以知乎为例介绍采集的基本步骤和设置。虽然有很多细节,但经过仔细计算,步骤并不多。基本上10分钟就能完全掌握采集。不管是什么类型的网站,设置的基本流程大致相同,有兴趣的可以仔细研究一下。