【原创免费】微信公众号文章爬取方式
优采云 发布时间: 2020-08-12 04:03python爬取
1.需要安装python selenium模块包,通过selenium中的webdriver驱动浏览器获取Cookie的方式、来达到登陆的疗效;
2.使用webdriver功能须要安装对应浏览器的驱动插件,我这儿测试用的是谷歌浏览器:
google chrome版本为52.0.2743.6 ;
chromedriver版本为:V2.23
注意:谷歌浏览器版本和chromedriver须要对应,否则会导致启动晨报错。【附:selenium之 chromedriver与chrome版本映射表(更新至v2.30))】
3.微信公众号登录地址:
4.微信公众号文章接口地址可以在微信公众号后台中新建图文消息,超链接功能中获取:
5.搜索公众号名称
6.获取要爬取的公众号的fakeid
7.选定要爬取的公众号,获取文章接口地址
8.文章列表翻页及内容获取
AnyProxy代理批量采集
实现方式:anyproxy+js
实现方式:anyproxy+java+webmagic
FiddlerCore
实现方式:抓包工具,Fiddler4
通过对多个帐号进行抓包剖析,可以确定:
_biz:这个14位的字符串是每位公众号的“id”,搜狗的陌陌平台可以获得 uin:与访问者有关,微信号id key:和所访问的公众号有关
1,写按键精灵脚本,在手机上手动点击公号文章列表页,也就是“查看历史消息”;
2,使用fiddler代理绑架手机端的访问,将网址转发到本地用php写的网页;
3,在php网页中将接收到的网址备份到数据库;
4,用python从数据库取出网址,然后进行正常的爬取。
爬的过程中发觉一个问题:
如果只是想爬取文章内容,似乎并没有访问频度限制,但若果想抓取阅读数、点赞数,超过一定频度后,返回都会变为空值,我设定的时间间隔为10秒,可以正常抓取,这种频度下,一个小时只能抓取360条,已经没哪些实际意义了。
清博 新榜
如果只是想看数据的话,直接看每晚的榜单就可以了,还不用花钱,如果须要接入自己的系统的话,他们也提供 api接口
Part3 项目步骤
该网站 收录了绝大部分的微信公众号文章,会定期更新,经测试发觉对爬虫较为友好
网站页面布局排版规律,不同公众号通过 链接中的 account 分辨
一个公众号合辑下的文章翻页也有规律:id号每翻一页+12