网页文章自动采集(一个好用如何抓包分析手机APP的抓包工具Fiddler?)
优采云 发布时间: 2021-10-17 08:20网页文章自动采集(一个好用如何抓包分析手机APP的抓包工具Fiddler?)
使用curl技术开发微信文章聚合产品,将抓取到的数据转换成json格式,调用android端的json数据接口显示;
我基于weiphp做了一个palm头条插件,还用到了网页采集技术;我和一个创业团队一起搭建了高考志愿报送系统,所有的数据也是从其他地方抓取的。
总而言之,网页抓取和网页采集技术是一项非常实用的技能,它可以让我们高效快速地获取开发产品所需的一些基础数据。
在网页抓取和网页采集的过程中,不可避免地会用到抓包技术。所谓抓包是指当我们访问一个目标网站时,我们需要分析一些我们提交给浏览器的http请求和一些提交给浏览器的数据,在知道请求是如何发起的以及是什么之后数据贴出来了,能否为目标网页编写相应的采集程序。尤其是在模拟登录某些需要用户进行登录验证的网站时,抓包分析就显得尤为重要。
一些浏览器有自己的抓包分析工具或有可扩展的抓包插件。例如,Firefox 有 firebug 插件,IE 有 HttpWatch。每个抓包工具都有自己独特的功能,这里就不一一介绍了。今天给大家介绍一个好用的抓包工具Fiddler。
手机APP抓拍
下面我们结合一个具体的例子来谈谈如何抓取和分析手机APP的请求数据,满足我们自己的需求。下面给大家讲一个LOL盒子抓包的例子。
我们知道LOL盒子没有网页版,或者网页版的功能没有手机APP的数据整合那么完善。如果我们想做一个微信版的LOL盒子,让用户在微信上回复一些关键词,查看一些基本信息。比如用户在微信中回复“英雄”就可以查看LOL的所有英雄信息。服装、符文等。那么我们要在微信端实现这些功能,肯定是需要数据库的支持的,如果我们的数据是从LOL官网抓取的,难免要写很多匹配规则,所以一个简单高效的方法就是直接抓取集成的LOL box数据。那么话题开始了,我们开始抓取LOL盒子中集成的所有英雄的数据。
1、 先在手机下载LOL盒子,进入首页(请无视我五渣战力指数)
2、打开Fiddler,点击Remove all,清除所有捕获的信息
3、点击LOL框中的英雄进入英雄页面
4、可以看到有免费、我的英雄、查看英雄三个选项。
5、这时候可以看到Fiddler已经抓到了我们需要的数据接口
6、 我们在其中一个数据接口上右键,复制url地址,在浏览器中打开
7、 可以看到我们需要的周冕英雄的数据接口,json格式。
至此,抓包分析的整个过程大家就清楚了。拿到json接口后,我们就可以使用curl技术将数据采集下来,将json格式的数据转换成数组或者其他格式,然后就可以存储到我们自己的数据库中了。当用户在微信中回复关键词时,我们会从数据库中检索相应的数据并回复给用户。