python抓取网页数据(爬取网页动态加载数据的2个例子分析呗)

优采云 发布时间: 2021-12-28 15:13

  python抓取网页数据(爬取网页动态加载数据的2个例子分析呗)

  数据包捕获和分析。通常,非 HTML 中的数据由网页动态加载。仅当页面刷新或重新请求时才加载数据。一般情况下,这些数据都存储在一个json文件或者xml文件中,下面我简单列举2个抓取网页动态加载数据的例子。有兴趣的可以参考实验环境win10+python3.6+pycharm5.0。主要内容如下:

  1.打开这个页面,假设这里要爬取的数据如下,包括年利率、贷款标题、期限、金额、进度五个字段:

  

  2.按F12调出开发者工具,依次点击“网络”->“XHR”,然后按F5刷新页面,可以看到页面的抓包数据,如下,点击进入,可以看到页面加载的Json数据:

  

  3.最后我们可以根据json数据格式编写代码来解析提取我们需要的数据,如下,代码很简单,主要使用json包:

  

  程序截图如下,就是我们需要爬取的数据:

  

  1. 这里假设我们要爬取《气象人》的弹幕数据,如下,看的很多,但也很乱:

  

  2. 第二步,和上面类似,按F12调出开发者工具,F5刷新页面,可以看到抓到的数据,点击文件list.so(xml文件),我们需要爬取数据如下:

  

  我们用浏览器打开这个xml文件,内容如下,很明显我们需要爬取数据:

  

  3.终于可以写代码解析xml数据了。这很简单。主要使用xml包。代码截图如下:

  

  程序截图如下,已经抓取到我们需要的数据:

  

  至此,我们就完成了使用python抓取网页动态加载的数据。总的来说,这两个例子并不难,最重要的是抓包分析,找到网页动态加载的文件信息,然后根据url请求这个页面,然后使用对应的包(json 、xml 包等)进行分析数据就可以了。只要你有一定的基础python爬虫,就可以使用浏览器的基础开发工具,快速掌握爬取的动态数据。当然,如果网页很复杂,有验证码,js加密等,这个就需要自己仔细分析了,或者用其他工具,selenium等,上面也有相关教程互联网供参考。如果你有兴趣,你可以搜索一下。希望以上分享的内容对您有所帮助。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线