python抓取网页数据(爬取网页动态加载数据的2个例子分析呗)

优采云发布时间: 2021-12-28 15:13

　　数据包捕获和分析。通常，非 HTML 中的数据由网页动态加载。仅当页面刷新或重新请求时才加载数据。一般情况下，这些数据都存储在一个json文件或者xml文件中，下面我简单列举2个抓取网页动态加载数据的例子。有兴趣的可以参考实验环境win10+python3.6+pycharm5.0。主要内容如下：

　　1.打开这个页面，假设这里要爬取的数据如下，包括年利率、贷款标题、期限、金额、进度五个字段：

　　2.按F12调出开发者工具，依次点击“网络”->“XHR”，然后按F5刷新页面，可以看到页面的抓包数据，如下，点击进入，可以看到页面加载的Json数据：

　　3.最后我们可以根据json数据格式编写代码来解析提取我们需要的数据，如下，代码很简单，主要使用json包：

　　程序截图如下，就是我们需要爬取的数据：

　　1. 这里假设我们要爬取《气象人》的弹幕数据，如下，看的很多，但也很乱：

　　2. 第二步，和上面类似，按F12调出开发者工具，F5刷新页面，可以看到抓到的数据，点击文件list.so（xml文件），我们需要爬取数据如下：

　　我们用浏览器打开这个xml文件，内容如下，很明显我们需要爬取数据：

　　3.终于可以写代码解析xml数据了。这很简单。主要使用xml包。代码截图如下：

　　程序截图如下，已经抓取到我们需要的数据：

　　至此，我们就完成了使用python抓取网页动态加载的数据。总的来说，这两个例子并不难，最重要的是抓包分析，找到网页动态加载的文件信息，然后根据url请求这个页面，然后使用对应的包（json 、xml 包等）进行分析数据就可以了。只要你有一定的基础python爬虫，就可以使用浏览器的基础开发工具，快速掌握爬取的动态数据。当然，如果网页很复杂，有验证码，js加密等，这个就需要自己仔细分析了，或者用其他工具，selenium等，上面也有相关教程互联网供参考。如果你有兴趣，你可以搜索一下。希望以上分享的内容对您有所帮助。

0

2021-12-28

python抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取网页数据(爬取网页动态加载数据的2个例子分析呗)

0 个评论

发起人