新榜陌陌文章抓取客户端(APSpider)
优采云 发布时间: 2020-08-10 06:25源码下载请至
这是曾经给新媒体营运朋友写的爬虫软件,用了一段时间就没用了(唉、气死我了)。
目前只抓取了新榜的日榜(周榜、月榜类似,换下地址即可)下,各行业的前50个公众号下的7天热门文章和最新发布文章
如下所示:
技术构架:nw.jsjqueryelement-ui
为什么选用nw.js呢?嗯,先入为主吧,electron也很不错(改下入口即可使用),为什么不用大名鼎鼎的python呢?爬虫框架而且一堆堆,还是个人习惯使然,用惯了js,操作网页简直得心应手,天生绝配!在此并不证实python,个人也比较喜欢(最近在研究深度学习架构),只是认为爬这种网页,还用不着它。
有一个关键点,在网页中,想操作iframe中的网页,是不容许跨域的,而nw.js容许这样操作,真是好啊!!!
安装步骤下载nw.js ,根据自己系统下载相应版本即可,官网: ,若自己须要二次开发,请下载SDK版本,方可开启debug,使用方式详见官网,不再探讨克隆APSpider,复制到nw.js目录,启动cmd,打开到当前目录,执行 npm install 安装依赖启动nw.exe 就可以使用啦使用说明考虑完整性,本客户端在读取到公众号列表及文章列表时,直接储存在article下的目录文件中,若须要将数据储存至数据库,请更改assest\utils\common.js中的Ap.request.ajax方式,将log函数注释,将下边被注释的代码恢复即可,然后在app\config.js中配置pushStateAPI(即前端接收数据API)为自己的数据插口即可因为新榜在公众号详尽页面设置了登陆权限(如:),
只有登陆后可访问,并且获取公众号文章的插口: ,
也是带了安全校准数组,所以登陆是必须要走的过程,所以点击登陆后,程序打开登陆页面,并获取二维码,如图:
用自己的陌陌扫一扫,授权登陆即可,程序手动步入公众号列表:
选择行业,点击开始即可,程序将获取所选行业下公众号的热门文章及最新发布文章,并储存至文件中
最初的版本是一键获取全部行业的文章,后面想想,还是自己想获取什么行业的就获取什么行业的
这是我的后台疗效:
其他新榜的所有ajax都带有安全校准数组和cookie,cookie倒是好办,登录后获取cookie储存上去,带到ajax的恳求头中即可,至于校准数组,着实费了一些时间,这个不再这儿阐述破解方式,有时间我会在csdn中写写破解的思路。关键词搜索还没做完,有时间补上。原本计划把微博、简书等一并爬了,忙于其他事务,就落下了。非常谢谢您的支持
撸码不易,如果对你有所帮助,欢迎您的赞赏!微信赞赏码: