用网络爬虫采集小红书的笔记

优采云 发布时间: 2020-08-10 16:27

  无论是做网路营销,还是出于其他目的,研究小红书的笔记其实是很重要的,那么首先要把小红书笔记内容用网路爬虫采集下来。

  集搜客网路爬虫不但能下载文字,还能下载视频、图片等多媒体内容,而且可以自主地去扩充爬行范围。我共享了一套网路爬虫规则,下载地址是: ,大家可以下载出来探求小红书笔记所承载的营销信息。

  1,网络爬虫爬行的范围

  

  针对小红书的发觉蓝筹股一共做了四个规则,他们是:

  1. 小红书社区蓝筹股:

  这是个总入口,爬这个网页 在这里可以爬到小红书每位蓝筹股的网址,这些网址作为第二个规则的线索。也就是说,从这个入口开始,网络爬虫从一个网址扩充成十几个网址(每个蓝筹股一个网址)。

  爬虫规则下载网址:

  2. 小红书社区精选:每个蓝筹股的网页结构是一样的,都用这个规则进行采集,这个规则把整篇笔记的网址采集下来,作为下级规则的线索,这样从十几个网址扩充到几百个网址。

  因为每位精选蓝筹股上的内容会不断出现新内容,那么这个规则最好设置成周期性调度方法,每隔一定时间重新采集一遍,会发觉新的笔记。周期性调度的设置方式参看前面的爬虫群设置。

  爬虫规则下载网址:

  3. 小红书笔记详情:这个规则爬每位笔记的文字、图片、视频、评论,也爬相关笔记,爬相关笔记的时侯,把相关笔记的网址作为本级规则的线索添加进来,所以,自身能够拓展爬行范围。同时还爬作者网页,作为第四个规则的线索。

  由于笔记详情网页好多,而且随着网路爬虫拓展范围,网址会不断降低,所以,应该设置爬虫群手动调度模式,持续不断地爬内容。

  爬虫规则下载网址:

  4. 小红书作者网页:在这个网页上,采集该作者写的所有笔记,将笔记网址作为小红书笔记详情这个规则的线索,从而达到循环扩充爬行范围的目的。

  随着范围拓展,也会不断降低新的作者,所以,这个规则应当也设置成爬虫群手动调度模式。

  爬虫规则下载网址:

  2,设置爬虫群调度参数

  2.1,小红书社区精选须要周期性抓取

  

  针对这个规则,重点设置周期性激活线索,从而可以周期性监控这个网页上是否出现新内容。

  2.2,自动批量采集网页

  小红书笔记详情和小红书作者网页会随着爬虫范围扩充而形成新的网址,那么应当设置成爬虫群调度模式,但是不需要象小红书社区精选一样周期性激活,不但不需要重复采集,还应当严禁由别的规则重新激活这个规则的早已采集过的线索,这将在增量采集一章讲解。

  3,增量爬取

  小红书笔记详情会通过相关笔记发觉新的笔记详情网址,小红书社区精选和小红书作者网页就会为小红书笔记详情补充新的网址,但是,也会把原先采集过的网址也补充进来。为了避免重复采集,需要在调度参数中进行设置,下图是以小红书笔记详情的调度参数设置为例:

  

  不要勾激活下级,那么原先采集过的网址就不会再度激活,达到增量采集的目的。

  4,下载视频和图片

  集搜客有强悍的图片、视频、文件的下载功能,不需要另外运行其他下载程序,用爬虫可以同时下载多媒体和文本内容。下载方式有两种,应对两种不同的场景。

  4.1,从特定网页位置下载图片和视频

  这是一种精准采集方法,主要用于网页上的图片有规律,可以用定义采集规则的方式采集所有图片网址,这样可以做的只采集指定的图片。

  

  如上图,在社区精选页上下载笔记的封面图,社区精选页相当于一个笔记列表页,应该定义样例复制或则定位标志映射来采集所有笔记的信息,图片网址作为其中一个数组被采集下来,只要再勾上下载图片,就能同时下载图片。

  详细教程参看:《采集图片网址并下载图片》

  4.2,从某个区域下载所有图片和视频

  在一个网页区域中,可能有图片,可能有视频,数量不确定,位置也没有规律,那么就应当用这些技巧。

  

  如上图,在笔记详情页的下部,可能有多个图片,也可能有视频,把这个区域对应的DOM节点做个内容映射,采集到一个数组中,同时勾上下载图片和下载视频,那么但凡遇见图片和视频,都会下载出来。

  详细教程参看:《怎样采集指定网页区域的图片》

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线