python抓取动态网页(以糗事百科网站数据为例(解析json.6+pycharm5))
优采云 发布时间: 2021-11-12 20:17python抓取动态网页(以糗事百科网站数据为例(解析json.6+pycharm5))
这里是一个简单的介绍。以捕获网站静态和动态数据为例。实验环境为win10+python3.6+pycharm5.0。主要内容如下:
抓取网站的静态数据(数据在网页源码中):以尴尬百科网站的数据为例
1.这里假设我们抓取的数据如下,主要包括用户昵称、内容、搞笑数、评论数4个字段,如下:
对应的网页源码如下,里面收录了我们需要的数据:
2. 对应网页结构,主要代码如下,很简单,主要使用requests+BeautifulSoup,其中requests用于请求页面,BeautifulSoup用于解析页面:
程序截图如下,已成功抓取数据:
抓取网站的动态数据(数据不在网页源代码中,而是在json等文件中):以人人贷网站的数据为例
1. 这里假设我们在爬取债券数据,主要包括年利率、贷款标题、期限、金额、进度5个字段。截图如下:
当你打开网页的源代码时,你会发现数据并不在网页的源代码中。按F12抓包分析时,可以在一个json文件中找到,如下:
2. 得到json文件的url后,我们就可以爬取对应的数据了。这里使用的包与上面的类似。因为是json文件,所以也用到了json包(解析json)。主要内容如下:
程序截图如下,已经成功抓取数据:
至此,这两种数据的抓取到此结束,包括静态数据和动态数据。总的来说,这两个例子并不难。它们都是入门级爬虫。网页结构比较简单。最重要的是做抓包分析,分析提取页面。熟悉之后就可以使用scrapy了。数据爬取的框架可以更方便、更高效。当然,如果抓取到的页面比较复杂,比如验证码、加密等,这个时候就需要仔细分析了。网上也有一些教程可以参考。如果你有兴趣,可以搜索一下,希望上面分享的内容对你有所帮助。