*敏*感*词*批量采集微信公众号文章(支持微信公众号最*敏*感*词*抓取 包括阅读数 好看数和评
优采云 发布时间: 2020-08-27 12:57*敏*感*词*批量采集微信公众号文章(支持微信公众号最*敏*感*词*抓取 包括阅读数 好看数和评
*敏*感*词*批量采集微信公众号文章
记录一下明天的成果,确实可以抓取到,配置完成以后1分钟可以抓取100+(后来优化了一下,可以达到300左右)片吧,我没有用多进程,如果是多进程的话,效率会翻番的降低。
抓取思路
网上的方式大概有四种(其实有5种方法 还是一种 不方便写出,太暴力)
第一:通过搜狗陌陌 搜索入口 ,模拟搜索抓取,效率比较低,但是加了代理可以每晚抓几百万。
第二:通过抓包工具截取htts恳求的数据包,意思就是使用pc端陌陌登陆,*敏*感*词*公众号的推送消息,每当*敏*感*词*到推送以后就把数据获取出来,缺点是难以获取原先的历史记录
第三:通过微信公众号的后台获取cookie和token来抓取;缺点是须要注册一个公众号,而且token有过期时间
第四:万能key或则公众号key抓取 ,key有效时间为两个小时,每个微信号三天最多可以抓取1200次,优势只要解决key的手动获取就十分便捷手动。
以上几种是网友提供的思路,都可以实现,但同时也都有缺点。
以下是我用第三种方式实现的;
使用php,node.js都可以抓取;
1.注册陌陌公众,登录以后选择新建素材,然后点击超链接,搜索任意公众号,保存该公众号的fakeid,同时保存cookie和token,