php 爬虫抓取网页数据( 1.2.找到数据源全国油价数据中心2.2.找到网页数据查询接口Fiddler)
优采云 发布时间: 2022-03-11 20:10php 爬虫抓取网页数据(
1.2.找到数据源全国油价数据中心2.2.找到网页数据查询接口Fiddler)
我们关心的是响应体,直接截取我们需要的数据。当然,通常的做法是解析响应的页面,完成很多倍。
1.2. 数据分析
http请求的返回格式是http响应,有固定的格式,但是数据体可能是多种多样的。常用的方法有四种:
正则表达式
请求-html
美丽汤
lxml 的 XPath
2. 成品油零售价格数据抓取实践案例
我们偶尔需要在互联网上获取某些数据,比如最近一年的成品油零售价格数据。
2.1. 查找数据源
国家油价数据中心
2.2. 找到网页数据查询接口
Fiddler 是一款常用的抓包分析软件。我们可以使用 Fiddler 详细分析 HTTP 请求,模拟相应的 HTTP 请求。
在使用 Fiddler 时,本地终端浏览器与服务器之间的所有请求和响应都会经过 Fiddler 并由 Fiddler 转发。由于所有的数据都会经过Fiddler,所以Fiddler可以在不实现网络数据抓包的情况下拦截这些数据。下图展示了 Fiddler 抓取网络链接请求。
跟踪分析网络请求,发现以下几个链接是获取数据的接口:
通过对请求的跟踪和监控,在WebForms请求表单中,找到日期数据,也就是接口API的变量。
有兴趣的可以自行查找日期变量列表的API。
2.3. 分析返回数据格式
分析网页太麻烦,直接截取数据分析爬取结果。
数据格式:
2.4. Python实现数据抓取
本案例使用 requests 模块,需要单独安装,如下:
2.5. 数据分析
由于API返回的数据是直接截取的,所以处理起来比较简单,直接用正则的方法来匹配嵌入的JSON数据。
其中,代码片段:
3. 总结
关于爬虫技术,如果只是提高数据获取的速度和便利性,其实还是比较简单的。从 IT 软件的角度来看,它是一种非常成熟的技术和协议。如果你懂JSP,前后端分离开发,SOA技术,合法爬虫就简单了。重点是找到请求的 URL,识别接口 API 和参数变量。
建议多学习Webservice接口技术,提高解析数据的效率。
最后推荐一个适合爬虫的代理ip---代理云
爬虫小伙伴可以去获取免费代理IP试试
国产优质动态IP。限时2-10分钟,现在注册即可免费领取10000个代理IP
———————————————
版权声明:本文为CSDN博主“肖永伟”的原创文章,遵循CC4.0 BY-SA版权协议。转载请附上原文出处链接和本声明。
原文链接:使用Python爬虫技术获取动态网页数据的简单方法和实用案例-肖永伟的专栏-CSDN博客