querylist采集微信公众号文章(工具Python3+版本Fiddler下载地址(图)下载)
优采云 发布时间: 2021-09-11 08:14querylist采集微信公众号文章(工具Python3+版本Fiddler下载地址(图)下载)
代码测试有效期至2019/03/08
微信爬虫步骤:
必需品:
我的微信公众号Fiddler抓包工具Python 3+版
提琴手下载链接
HTTP 代理工具也称为抓包工具。主流的抓包工具是Windows平台的Fiddler,macOS平台的Charles,阿里开源了一个叫AnyProxy的工具。它们的基本原理类似,即通过在移动客户端上设置代理IP和端口,所有来自客户端的HTTP和HTTPS请求都会通过代理工具。在代理工具中,您可以清楚地看到每个请求。然后可以分析详细信息以找出每个请求的构造方式。搞清楚这些之后,我们就可以用Python来模拟发起请求了,然后就可以得到我们想要的数据了。
安装包超过4M。配置前,首先确保您的手机和电脑在同一个局域网内。如果不在同一个局域网内,可以购买*敏*感*词*WiFi,在电脑上搭建一个极简的无线路由器。一路点击下一步,完成安装过程。
Fiddler 配置选择工具> Fiddler 选项> 连接 Fiddler 的默认端口为8888,如果该端口已经被其他程序占用,需要手动更改,勾选允许远程计算机连接,其他选项即可。 , 配置更新后记得重启Fiddler。一定要重启Fiddler,否则代理将失效。 .接下来需要配置手机,但是这里微信有pc客户端,所以不需要配置手机
现在打开微信,随机选择一个公众号,进入公众号的【查看历史信息】
同时观察 Fiddler 的主面板。当微信从公众号介绍页面进入历史消息页面时,已经可以在Fiddler上看到请求进来了。这些请求是微信APP向服务器发送的请求。现在简单介绍一下这个请求面板上各个模块的含义。
我将上面的主面板分成了 7 个块。需要了解每个区块的内容,然后才可以使用Python代码模拟微信请求。 1、服务器响应结果,200表示服务器成功响应了2、请求协议,微信请求协议是基于HTTPS的,所以之前一定要配置好,否则看不到HTTPS请求。 3、微信服务器主机名4、请求路径5、请求行,包括请求方法(GET)、请求协议(HTTP/1.1)、请求路径(/mp/profile_ext...)一长串参数)6、收录cookie信息的请求头。7、微信服务器返回的响应数据,我们切换到TextView和WebView看看返回的数据是什么样子的。
TextView模式下的预览效果为服务器返回的HTML源代码
WebView 模式是 HTML 代码的渲染效果。其实就是我们在手机微信上看到的效果,但是因为风格欠缺,没有看到手机上的美化效果。
如果服务器返回的是Json格式或者XML,也可以切换到对应的页面进行预览查看。
开始抓取:
1、拥有微信公众号
登录微信公众号,在菜单栏:素材管理—>新建素材,出现如下页面
F12查看网络,点击图中位置
公众号和user-Agent的cookies如下
Fakeid和token获取如下: