querylist采集微信公众号文章(工具Python3+版本Fiddler下载地址(图)下载)

优采云 发布时间: 2021-09-11 08:14

  querylist采集微信公众号文章(工具Python3+版本Fiddler下载地址(图)下载)

  代码测试有效期至2019/03/08

  微信爬虫步骤:

  必需品:

  我的微信公众号Fiddler抓包工具Python 3+版

  提琴手下载链接

  HTTP 代理工具也称为抓包工具。主流的抓包工具是Windows平台的Fiddler,macOS平台的Charles,阿里开源了一个叫AnyProxy的工具。它们的基本原理类似,即通过在移动客户端上设置代理IP和端口,所有来自客户端的HTTP和HTTPS请求都会通过代理工具。在代理工具中,您可以清楚地看到每个请求。然后可以分析详细信息以找出每个请求的构造方式。搞清楚这些之后,我们就可以用Python来模拟发起请求了,然后就可以得到我们想要的数据了。

  安装包超过4M。配置前,首先确保您的手机和电脑在同一个局域网内。如果不在同一个局域网内,可以购买*敏*感*词*WiFi,在电脑上搭建一个极简的无线路由器。一路点击下一步,完成安装过程。

  Fiddler 配置选择工具> Fiddler 选项> 连接 Fiddler 的默认端口为8888,如果该端口已经被其他程序占用,需要手动更改,勾选允许远程计算机连接,其他选项即可。 , 配置更新后记得重启Fiddler。一定要重启Fiddler,否则代理将失效。 .接下来需要配置手机,但是这里微信有pc客户端,所以不需要配置手机

  现在打开微信,随机选择一个公众号,进入公众号的【查看历史信息】

  同时观察 Fiddler 的主面板。当微信从公众号介绍页面进入历史消息页面时,已经可以在Fiddler上看到请求进来了。这些请求是微信APP向服务器发送的请求。现在简单介绍一下这个请求面板上各个模块的含义。

  

  我将上面的主面板分成了 7 个块。需要了解每个区块的内容,然后才可以使用Python代码模拟微信请求。 1、服务器响应结果,200表示服务器成功响应了2、请求协议,微信请求协议是基于HTTPS的,所以之前一定要配置好,否则看不到HTTPS请求。 3、微信服务器主机名4、请求路径5、请求行,包括请求方法(GET)、请求协议(HTTP/1.1)、请求路径(/mp/profile_ext...)一长串参数)6、收录cookie信息的请求头。7、微信服务器返回的响应数据,我们切换到TextView和WebView看看返回的数据是什么样子的。

  TextView模式下的预览效果为服务器返回的HTML源代码

  

  WebView 模式是 HTML 代码的渲染效果。其实就是我们在手机微信上看到的效果,但是因为风格欠缺,没有看到手机上的美化效果。

  

  如果服务器返回的是Json格式或者XML,也可以切换到对应的页面进行预览查看。

  开始抓取:

  1、拥有微信公众号

  登录微信公众号,在菜单栏:素材管理—>新建素材,出现如下页面

  

  F12查看网络,点击图中位置

  

  公众号和user-Agent的cookies如下

  

  Fakeid和token获取如下:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线