python抓取动态网页(以糗事百科网站数据为例(解析json.6+pycharm5))

优采云 发布时间: 2021-11-12 20:17

  python抓取动态网页(以糗事百科网站数据为例(解析json.6+pycharm5))

  这里是一个简单的介绍。以捕获网站静态和动态数据为例。实验环境为win10+python3.6+pycharm5.0。主要内容如下:

  

  抓取网站的静态数据(数据在网页源码中):以尴尬百科网站的数据为例

  

  1.这里假设我们抓取的数据如下,主要包括用户昵称、内容、搞笑数、评论数4个字段,如下:

  

  对应的网页源码如下,里面收录了我们需要的数据:

  

  2. 对应网页结构,主要代码如下,很简单,主要使用requests+BeautifulSoup,其中requests用于请求页面,BeautifulSoup用于解析页面:

  

  程序截图如下,已成功抓取数据:

  

  抓取网站的动态数据(数据不在网页源代码中,而是在json等文件中):以人人贷网站的数据为例

  

  1. 这里假设我们在爬取债券数据,主要包括年利率、贷款标题、期限、金额、进度5个字段。截图如下:

  

  当你打开网页的源代码时,你会发现数据并不在网页的源代码中。按F12抓包分析时,可以在一个json文件中找到,如下:

  2. 得到json文件的url后,我们就可以爬取对应的数据了。这里使用的包与上面的类似。因为是json文件,所以也用到了json包(解析json)。主要内容如下:

  程序截图如下,已经成功抓取数据:

  至此,这两种数据的抓取到此结束,包括静态数据和动态数据。总的来说,这两个例子并不难。它们都是入门级爬虫。网页结构比较简单。最重要的是做抓包分析,分析提取页面。熟悉之后就可以使用scrapy了。数据爬取的框架可以更方便、更高效。当然,如果抓取到的页面比较复杂,比如验证码、加密等,这个时候就需要仔细分析了。网上也有一些教程可以参考。如果你有兴趣,可以搜索一下,希望上面分享的内容对你有所帮助。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线