怎样抓取网页数据(简单介绍一下如何通过python网络爬虫获取网站数据(图))

优采云 发布时间: 2021-12-07 19:16

  怎样抓取网页数据(简单介绍一下如何通过python网络爬虫获取网站数据(图))

  这里以python获取网页版本为例,简单介绍一下如何通过python网页爬虫获取网站数据,主要分为静态网页数据的抓取和动态网页数据的抓取。实验环境为win10+python3.6+pycharm5.0,主要内容如下:

  

  静态网页数据。这里的数据嵌套在网页源码中,可以直接请求网页源码解析。让我简要介绍一下。下面是一个在尴尬百科上爬取数据的例子:

  

  

  

  1.首先打开原网页如下。这里假设要爬取的字段包括昵称、内容、搞笑数、评论数:

  

  

  然后查看网页的源码,如下图,可以看到所有的数据都嵌套在了网页中:

  

  

  2. 那么对于上面的网页结构,我们可以直接编写爬虫代码,解析网页,提取我们需要的数据。测试代码如下,很简单,主要采用requests+BeautifulSoup的组合方式,其中requests用于获取网页源码,BeautifulSoup用于解析网页提取数据:

  点击运行这个程序,效果如下,我们需要的数据已经爬取成功:

  动态网页数据 这里的数据不在网页源代码中(所以直接请求页面是得不到任何数据的)。大多数情况下,它存储在一个json文件中。数据只会在网页更新时加载。,下面我就简单介绍一下这个方法。以下是在人人贷上抓取数据的示例:

  1.首先打开原网页,如下,这里假设要爬取的数据包括年利率、贷款标题、期限、金额、进度:

  然后按F12调出开发者工具,点击“网络”->“XHR”,F5刷新页面,可以找到动态加载的json文件,如下,就是我们需要爬取的数据:

  2. 然后根据这个json文件编写相应的代码,解析出我们需要的字段信息。测试代码如下,也很简单。它主要采用requests+json的组合方式,其中requests用于请求json文件,json用于解析从json文件中提取数据:

  点击运行这个程序,效果如下,我们需要的数据已经爬取成功:

  至此,我们就完成了使用python网络爬虫获取网站数据的过程。总的来说,整个过程非常简单。Python内置了很多网络爬虫包和框架(scrapy等),可以快速获取网站数据,非常适合初学者学习和掌握。只要你有一定的爬虫基础,熟悉上面的流程和代码,你就能很快掌握。当然也可以使用现成的爬虫软件,比如优采云、优采云等,网上也有相关的教程和资料。它非常丰富。有兴趣的可以搜索一下。希望以上分享的内容对您有所帮助。也欢迎大家评论留言补充。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线