Azure Databricks入门 - 认识一下DBFS

优采云 发布时间: 2022-07-28 02:29

  Azure Databricks入门 - 认识一下DBFS

  Databricks File System简称DBFS, 在Databricks的部署中,它是一个分布式文件系统,是基于云的文件系统,为Spark计算引擎提供统一文件存取接口,这主要体现在如下几个方面:

  另外需要注意的是DBFS有几个特殊的根目录:

  这些是一个workspace新建之后,默认已经有的根目录,虽然对于workspace里的所有用户来说DBFS都是可读写的,不过建议不要在根目录随意写入不必要的数据。而是按照DBFS的推荐来放置和读写数据。

  使用Databricks CLi来浏览DBFS

  再次重申一下,DBFS是不依附集群存在而存在的,例如我们之前刚刚创建的新集群,虽然创建了一个集群,但是该集群并没有启动,使用Databricks CLi工具仍然是可以访问DBFS的。

  注意

  请按照之前的文章配置好Databricks cli工具

  运行如下的命令浏览DBFS的根目录:

  dbfs ls

  返回如下结果:

  PS D:\MyProjects\PowerShell> dbfs ls -l<br />dir 0 FileStore 1658033203000<br />dir 0 databricks-results 0<br />dir 0 local_disk0 1657984126000<br />dir 0 mnt 1657951447000<br />dir 0 tmp 1657984614000<br />dir 0 user 1655907661000<br /><br />PS D:\MyProjects\PowerShell>

  我们之前讨论到的根目录,会发现这些目录在命令行工具中没有返回,例如/databricks-datasets。

  需要注意的是命令行工具浏览的根目录即是DBFS的根目录。

  启动集群观察DBFS

  启动我们上一章创建的集群:登录到workspace, 选择左侧菜单compute, 选择创建的集群start, 等待集群启动成功之后,创建一个基于python的notebook。

  我们先观察几个可以直接在notebook中可以使用的工具:

  需要注意的是:

  如下是一些操作的结果:

  %fs ls<br />

  

  %sh ls -l --color /dbfs/

  display(dbutils.fs.ls("dbfs:/"))

  import os<br />os.listdir('/dbfs/')

  使用Python的代码演示一下如何读取和写入DBFS文件系统的实例:

  以上DBFS快速熟悉一下就好了。

  往期文章目录:

  Azure Databricks学习

  Azure语言服务:

  机器学习算法:

  主题‍

  文章列表‍

  Azure翻译服务入门

  Azure Digital Twin入门‍

  Azure虚拟机Web应用‍‍

  Azure入门‍

  

  Azure IoT 总的系列

  Azure IoT Edge

  Azure IoT Hub DPS服务‍

  Azure IoT Hub系列文章‍

  Azure认知搜索入门‍

  Azure认知搜索概念学习

  Azure机器人快速介绍‍

  Azure指南‍

  Azure Linux虚拟机教程

  Azure机器学习入门系列

  Azure云架构师入门修炼系列

  Azure认知服务

   Core 基础学习

  Blazor文章列表

  ‍

   Core文章列表

  .Net 异步编程指南

  .Net Hosted基础

  AzureDeveloper,一个分享和学习Azure技术的好去处,欢迎关注

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线