新榜陌陌文章抓取客户端(APSpider)

优采云 发布时间: 2020-08-10 06:25

  源码下载请至

  这是曾经给新媒体营运朋友写的爬虫软件,用了一段时间就没用了(唉、气死我了)。

  目前只抓取了新榜的日榜(周榜、月榜类似,换下地址即可)下,各行业的前50个公众号下的7天热门文章和最新发布文章

  如下所示:

  

  技术构架:nw.jsjqueryelement-ui

  为什么选用nw.js呢?嗯,先入为主吧,electron也很不错(改下入口即可使用),为什么不用大名鼎鼎的python呢?爬虫框架而且一堆堆,还是个人习惯使然,用惯了js,操作网页简直得心应手,天生绝配!在此并不证实python,个人也比较喜欢(最近在研究深度学习架构),只是认为爬这种网页,还用不着它。

  有一个关键点,在网页中,想操作iframe中的网页,是不容许跨域的,而nw.js容许这样操作,真是好啊!!!

  安装步骤下载nw.js ,根据自己系统下载相应版本即可,官网: ,若自己须要二次开发,请下载SDK版本,方可开启debug,使用方式详见官网,不再探讨克隆APSpider,复制到nw.js目录,启动cmd,打开到当前目录,执行 npm install 安装依赖启动nw.exe 就可以使用啦使用说明考虑完整性,本客户端在读取到公众号列表及文章列表时,直接储存在article下的目录文件中,若须要将数据储存至数据库,请更改assest\utils\common.js中的Ap.request.ajax方式,将log函数注释,将下边被注释的代码恢复即可,然后在app\config.js中配置pushStateAPI(即前端接收数据API)为自己的数据插口即可因为新榜在公众号详尽页面设置了登陆权限(如:),

  只有登陆后可访问,并且获取公众号文章的插口: ,

  也是带了安全校准数组,所以登陆是必须要走的过程,所以点击登陆后,程序打开登陆页面,并获取二维码,如图:

  

  用自己的陌陌扫一扫,授权登陆即可,程序手动步入公众号列表:

  

  选择行业,点击开始即可,程序将获取所选行业下公众号的热门文章及最新发布文章,并储存至文件中

  最初的版本是一键获取全部行业的文章,后面想想,还是自己想获取什么行业的就获取什么行业的

  

  这是我的后台疗效:

  

  

  其他新榜的所有ajax都带有安全校准数组和cookie,cookie倒是好办,登录后获取cookie储存上去,带到ajax的恳求头中即可,至于校准数组,着实费了一些时间,这个不再这儿阐述破解方式,有时间我会在csdn中写写破解的思路。关键词搜索还没做完,有时间补上。原本计划把微博、简书等一并爬了,忙于其他事务,就落下了。非常谢谢您的支持

  撸码不易,如果对你有所帮助,欢迎您的赞赏!微信赞赏码:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线