python抓取网页数据(简单介绍一下如何通过python获取网站，主要分为静态网页数据的爬取)

优采云发布时间: 2022-03-05 10:02

　　这里举个例子简单介绍一下如何通过python获取网站，主要分为静态网页数据的爬取和动态网页数据的爬取。实验环境为win10+python3.6+pycharm5.0，主要内容如下：

　　静态网页数据这里的数据嵌套在网页源码中，是为了抓取网页数据，所以直接解析requests网页源码就够了。让我简单介绍一下。下面是一个爬虫百科上的数据的例子：

　　1.首先抓取网页数据，打开原网页，如下，这里假设要抓取的字段包括昵称、内容、搞笑数和评论数：

　　然后查看网页源网页数据抓取，如下，可以看到所有的数据都嵌套在网页中：

　　2.那么我们就可以直接编写上面的网页结构网页数据抓取的代码，解析网页，提取出我们需要的数据。测试代码如下，很简单，主要是使用requests+BeautifulSoup的组合，其中requests用来获取网页的源码，BeautifulSoup用来解析网页提取数据：

　　点击运行本程序网页数据抓取，效果如下，我们需要的数据已经抓取成功：

　　动态网页数据这里的数据不在网页的源代码中（所以直接请求页面无法获取数据）。大多数情况下，网页数据存储在 json 文件中。只有当网页更新时，才会加载数据。让我简单介绍一下这种方法。下面是一个在人人贷上爬取数据的例子：

　　1.首先抓取网页数据，打开原创网页，如下，假设要抓取的数据包括年利率、贷款名称、期限、金额和进度：

　　然后按F12调出开发者网页数据抓取，依次点击“网络”-“XHR”，F5刷新页面，可以找到动态加载的json文件，如下，也就是我们需要抓取的数据：

　　2.然后就是根据这个json文件编写相应的代码，解析出我们需要抓取网页数据的字段。测试代码如下，也很简单。主要是使用requests+json的组合，其中requests用来请求json文件，json用来解析json文件提取数据：

　　点击运行本程序网页数据抓取，效果如下，我们需要的数据已经抓取成功：

　　至此，我们已经完成了使用python网络爬虫获取网站数据网页数据抓取。总的来说，整个过程非常简单。Python内置了很多网络爬虫包和框架（scrapy等），可以快速获取网站数据，非常适合初学者学习和掌握，只要你有一定的爬虫基础，熟悉以上流程和代码，很快就能掌握。当然，你也可以使用现成的，比如速度和速度。网上也有相关的教程和资料，非常丰富。有兴趣的可以搜索一下，希望上面分享的内容可以对大家有所帮助，也欢迎大家评论留言补充。

0

2022-03-05

python抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取网页数据(简单介绍一下如何通过python获取网站，主要分为静态网页数据的爬取)

0 个评论

发起人

AI时代内容工厂

python抓取网页数据(简单介绍一下如何通过python获取网站，主要分为静态网页数据的爬取)

0 个评论

发起人

相关问题