python抓取网页数据(简单介绍一下如何通过python获取网站,主要分为静态网页数据的爬取)

优采云 发布时间: 2022-03-05 10:02

  python抓取网页数据(简单介绍一下如何通过python获取网站,主要分为静态网页数据的爬取)

  这里举个例子简单介绍一下如何通过python获取网站,主要分为静态网页数据的爬取和动态网页数据的爬取。实验环境为win10+python3.6+pycharm5.0,主要内容如下:

  静态网页数据 这里的数据嵌套在网页源码中,是为了抓取网页数据,所以直接解析requests网页源码就够了。让我简单介绍一下。下面是一个爬虫百科上的数据的例子:

  1.首先抓取网页数据,打开原网页,如下,这里假设要抓取的字段包括昵称、内容、搞笑数和评论数:

  然后查看网页源网页数据抓取,如下,可以看到所有的数据都嵌套在网页中:

  

  2.那么我们就可以直接编写上面的网页结构网页数据抓取的代码,解析网页,提取出我们需要的数据。测试代码如下,很简单,主要是使用requests+BeautifulSoup的组合,其中requests用来获取网页的源码,BeautifulSoup用来解析网页提取数据:

  点击运行本程序网页数据抓取,效果如下,我们需要的数据已经抓取成功:

  动态网页数据 这里的数据不在网页的源代码中(所以直接请求页面无法获取数据)。大多数情况下,网页数据存储在 json 文件中。只有当网页更新时,才会加载数据。让我简单介绍一下这种方法。下面是一个在人人贷上爬取数据的例子:

  1.首先抓取网页数据,打开原创网页,如下,假设要抓取的数据包括年利率、贷款名称、期限、金额和进度:

  然后按F12调出开发者网页数据抓取,依次点击“网络”-“XHR”,F5刷新页面,可以找到动态加载的json文件,如下,也就是我们需要抓取的数据:

  2.然后就是根据这个json文件编写相应的代码,解析出我们需要抓取网页数据的字段。测试代码如下,也很简单。主要是使用requests+json的组合,其中requests用来请求json文件,json用来解析json文件提取数据:

  

  点击运行本程序网页数据抓取,效果如下,我们需要的数据已经抓取成功:

  至此,我们已经完成了使用python网络爬虫获取网站数据网页数据抓取。总的来说,整个过程非常简单。Python内置了很多网络爬虫包和框架(scrapy等),可以快速获取网站数据,非常适合初学者学习和掌握,只要你有一定的爬虫基础,熟悉以上流程和代码,很快就能掌握。当然,你也可以使用现成的,比如速度和速度。网上也有相关的教程和资料,非常丰富。有兴趣的可以搜索一下,希望上面分享的内容可以对大家有所帮助,也欢迎大家评论留言补充。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线