前嗅教你大数据:爬虫实战之采集知乎问答
优采云 发布时间: 2022-05-11 14:54前嗅教你大数据:爬虫实战之采集知乎问答
应广大粉丝的强烈要求
前嗅实战脚本教程新鲜出炉啦!小编专门挑选了大家呼声最高的知乎各位心心念学习脚本的童鞋们赶紧收藏哟
点击下方即免费下载
ForeSpider爬虫软件
一.场景简介
场景描述:通过搜狗搜索的知乎搜索栏目,按关键词搜索采集知乎正文。
入口网址:
采集内容:采集的数据为知乎文章的标题和内容
二.思路分析
采集知乎的关键点在于:关键词配置链接、翻页、链接抽取、数据抽取。配置思路如下所示:
配置思路
三.配置步骤
1.新建采集任务
选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可。
由于本次采集是通过关键词采集相关内容,所以【采集类型】要勾选【关键词采集】,填写完成。
点击【完成】,任务列表里出现本条任务,创建成功。
2.关键词配置
①在入口页搜索不同关键词,发现不同关键词搜索结果的链接,只更换了图中红框部分,而红框部分正是经过转码后的关键词,于是得出关键词链接的拼接规则为:
关键词
ie=utf8&pid=sogou-wsse-ff111e4a5406ed40&insite=
②得到关键词链接拼接规则后,开始配置关键词搜索:
点击屏幕右下角【高级配置】,将采集地址填写到【请求地址】中,点击【+】添加一个参数,名称可以自定义,此项配置是用于后期脚本能将关键词从关键词列表中取出,配置完成点击【确定】即可。
③由于本模板是以关键词搜索为入口,所以在【模板抽取配置】选择频道(即任务名称),选择【脚本窗口】,将关键词搜索配置在频道处即可。
④具体配置脚本如下:
var sear=EXTRACT.GetSearch(this); //关键词获取var k=sear.Search();while(k){ //遍历 url u; u.urlname="https://www.sogou.com/sogou?query="+k.wd+"&ie=utf8&pid=sogou-wsse-ff111e4a5406ed40&insite=zhihu.com"; //拼地址+分页 var tit=TransFrom(u.UnEscape(k.wd),7); u.title=tit; u.entryid=this.id; u.tmplid=1; k=sear.Search(); RESULT.AddLink(u);}
将脚本填写在对应脚本框中,如下图所示:
⑤效果预览:
在【关键词列表】中填写关键词,点击【保存】,点击【采集预览】,即可看到配置效果。
3.翻页配置
关键词配置完成,下一步是获取关键词搜索结果中的全部翻页链接。
①右键点击【默认模板:01】,选择添加链接抽取。
②同样选择【脚本窗口】,配置翻页脚本。
③对关键词搜索出的网页翻页,观察网页地址的变化,发现在原地址中增加了“&sut=2674&sst0=59&lkt=1%2*敏*感*词*4%2*敏*感*词*4&page=2&ie=utf8”部分,随着页码的改变,仅有page参数的值在变化。page为页码的配置参数,其它不变部分,直接拼接在链接中即可。
④具体配置脚本如下: <p>url u; for(var i=1;i