php 爬虫抓取网页数据( 1.2.找到数据源全国油价数据中心2.2.找到网页数据查询接口Fiddler)

优采云 发布时间: 2022-03-11 20:10

  php 爬虫抓取网页数据(

1.2.找到数据源全国油价数据中心2.2.找到网页数据查询接口Fiddler)

  

  我们关心的是响应体,直接截取我们需要的数据。当然,通常的做法是解析响应的页面,完成很多倍。

  1.2. 数据分析

  http请求的返回格式是http响应,有固定的格式,但是数据体可能是多种多样的。常用的方法有四种:

  正则表达式

  请求-html

  美丽汤

  lxml 的 XPath

  2. 成品油零售价格数据抓取实践案例

  我们偶尔需要在互联网上获取某些数据,比如最近一年的成品油零售价格数据。

  2.1. 查找数据源

  国家油价数据中心

  

  2.2. 找到网页数据查询接口

  Fiddler 是一款常用的抓包分析软件。我们可以使用 Fiddler 详细分析 HTTP 请求,模拟相应的 HTTP 请求。

  在使用 Fiddler 时,本地终端浏览器与服务器之间的所有请求和响应都会经过 Fiddler 并由 Fiddler 转发。由于所有的数据都会经过Fiddler,所以Fiddler可以在不实现网络数据抓包的情况下拦截这些数据。下图展示了 Fiddler 抓取网络链接请求。

  

  跟踪分析网络请求,发现以下几个链接是获取数据的接口:

  

  

  通过对请求的跟踪和监控,在WebForms请求表单中,找到日期数据,也就是接口API的变量。

  

  有兴趣的可以自行查找日期变量列表的API。

  2.3. 分析返回数据格式

  分析网页太麻烦,直接截取数据分析爬取结果。

  数据格式:

  

  2.4. Python实现数据抓取

  本案例使用 requests 模块,需要单独安装,如下:

  

  

  

  

  2.5. 数据分析

  由于API返回的数据是直接截取的,所以处理起来比较简单,直接用正则的方法来匹配嵌入的JSON数据。

  其中,代码片段:

  

  3. 总结

  关于爬虫技术,如果只是提高数据获取的速度和便利性,其实还是比较简单的。从 IT 软件的角度来看,它是一种非常成熟的技术和协议。如果你懂JSP,前后端分离开发,SOA技术,合法爬虫就简单了。重点是找到请求的 URL,识别接口 API 和参数变量。

  建议多学习Webservice接口技术,提高解析数据的效率。

  最后推荐一个适合爬虫的代理ip---代理云

  爬虫小伙伴可以去获取免费代理IP试试

  国产优质动态IP。限时2-10分钟,现在注册即可免费领取10000个代理IP

  ———————————————

  版权声明:本文为CSDN博主“肖永伟”的原创文章,遵循CC4.0 BY-SA版权协议。转载请附上原文出处链接和本声明。

  原文链接:使用Python爬虫技术获取动态网页数据的简单方法和实用案例-肖永伟的专栏-CSDN博客

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线