python抓取动态网页(以糗事百科网站数据为例(解析json.6+pycharm5))

优采云发布时间: 2021-11-12 20:17

　　这里是一个简单的介绍。以捕获网站静态和动态数据为例。实验环境为win10+python3.6+pycharm5.0。主要内容如下：

　　抓取网站的静态数据（数据在网页源码中）：以尴尬百科网站的数据为例

　　1.这里假设我们抓取的数据如下，主要包括用户昵称、内容、搞笑数、评论数4个字段，如下：

　　对应的网页源码如下，里面收录了我们需要的数据：

　　2. 对应网页结构，主要代码如下，很简单，主要使用requests+BeautifulSoup，其中requests用于请求页面，BeautifulSoup用于解析页面：

　　程序截图如下，已成功抓取数据：

　　抓取网站的动态数据（数据不在网页源代码中，而是在json等文件中）：以人人贷网站的数据为例

　　1. 这里假设我们在爬取债券数据，主要包括年利率、贷款标题、期限、金额、进度5个字段。截图如下：

　　当你打开网页的源代码时，你会发现数据并不在网页的源代码中。按F12抓包分析时，可以在一个json文件中找到，如下：

　　2. 得到json文件的url后，我们就可以爬取对应的数据了。这里使用的包与上面的类似。因为是json文件，所以也用到了json包（解析json）。主要内容如下：

　　程序截图如下，已经成功抓取数据：

　　至此，这两种数据的抓取到此结束，包括静态数据和动态数据。总的来说，这两个例子并不难。它们都是入门级爬虫。网页结构比较简单。最重要的是做抓包分析，分析提取页面。熟悉之后就可以使用scrapy了。数据爬取的框架可以更方便、更高效。当然，如果抓取到的页面比较复杂，比如验证码、加密等，这个时候就需要仔细分析了。网上也有一些教程可以参考。如果你有兴趣，可以搜索一下，希望上面分享的内容对你有所帮助。

0

2021-11-12

python抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取动态网页(以糗事百科网站数据为例(解析json.6+pycharm5))

0 个评论

发起人

AI时代内容工厂

python抓取动态网页(以糗事百科网站数据为例(解析json.6+pycharm5))

0 个评论

发起人

相关问题