如何进行手机APP的数据爬取?
优采云 发布时间: 2020-05-30 08:00作者:xiaoyu
微信公众号:Python数据科学
知乎:Python数据分析师
平时我们的爬虫多是针对网页的,但是随着手机端APP应用数目的增多,相应的爬取需求也就越来越多,因此手机端APP的数据爬取对于一名爬虫工程师来说是一项必备的技能。我们晓得手机上爬虫软件,网页爬取的时侯我常常使用F12开发者工具或则fiddler之类的工具来帮助我们剖析浏览器行为。那对于手机的APP该怎么使用呢?同样的,我们也可以使用fiddler来剖析。好了,本篇博主将会给你们介绍怎样在笔记本端使用fiddler进行手机APP的抓包。
首先了解一下fiddler(百度百科):
Fiddler是一个http合同调试代理工具,它就能记录并检测所有你的笔记本和互联网之间的http通信,设置断点,查看所有的“进出”Fiddler的数据(指cookie,html,js,css等文件,这些都可以使你胡乱更改的意思)。 Fiddler 要比其他的网路调试器要愈发简单,因为它不仅仅曝露http通信还提供了一个用户友好的格式。
完成此项工作的整个流程可分为如下几个步骤。
fiddler的官方下载链接:
安装步骤没哪些非常,常规下一步完成即可。
这里有两点须要说明一下。
操作很简单,打开下载好的fiddler手机上爬虫软件,找到 Tools -> Options,然后再HTTPS的工具栏下勾选Decrpt HTTPS traffic,在新弹出的选项栏下勾选Ignore server certificate errors。
相同的,在Connections选项栏下勾选Allow remote computers to connect,并记住前面的端口号8888,后面会使用到。
好了,需要的fiddler设置就配置完成了。
设置手机端之前,我们须要记住一点:电脑和手机须要在同一个网路下进行操作。
可以使用wifi或则手机热点等来完成。
假如你已然使笔记本和手机处于同一个网路下了,这时候我们须要晓得此网路的ip地址,可以在命令行输入ipconfig简单的获得,如图。
好了,下面我们开始手机端的设置。
手机APP的抓取操作对于Android和Apple系统都可用,博主使用的苹果系统,在此以苹果系统为例。
进入到手机wifi的设置界面,选择当前联接网路的更多信息,在苹果中是一个感叹号。然后在最下边你会看见HTTP代理的选项,点击步入。
进入后,填写里面记住的ip地址和端口号,确定保存。
在手机上打开浏览器输入一个里面ip地址和端口号组成的url::8888,然后点击FiddlerRoot certificate下载fiddler证书。
以上就简单完成了所有的操作,最后我们测试一下是否好用。
就以知乎APP为例,在手机上打开 知乎APP。下面是笔记本上fiddler的抓包结果。
结果没有问题,抓到信息包。然后就可以使用我们剖析网页的方式来进行后续的操作了。