Azure Databricks入门 - 认识一下DBFS
优采云 发布时间: 2022-07-28 02:29Azure Databricks入门 - 认识一下DBFS
Databricks File System简称DBFS, 在Databricks的部署中,它是一个分布式文件系统,是基于云的文件系统,为Spark计算引擎提供统一文件存取接口,这主要体现在如下几个方面:
另外需要注意的是DBFS有几个特殊的根目录:
这些是一个workspace新建之后,默认已经有的根目录,虽然对于workspace里的所有用户来说DBFS都是可读写的,不过建议不要在根目录随意写入不必要的数据。而是按照DBFS的推荐来放置和读写数据。
使用Databricks CLi来浏览DBFS
再次重申一下,DBFS是不依附集群存在而存在的,例如我们之前刚刚创建的新集群,虽然创建了一个集群,但是该集群并没有启动,使用Databricks CLi工具仍然是可以访问DBFS的。
注意
请按照之前的文章配置好Databricks cli工具
运行如下的命令浏览DBFS的根目录:
dbfs ls
返回如下结果:
PS D:\MyProjects\PowerShell> dbfs ls -l<br />dir 0 FileStore 1658033203000<br />dir 0 databricks-results 0<br />dir 0 local_disk0 1657984126000<br />dir 0 mnt 1657951447000<br />dir 0 tmp 1657984614000<br />dir 0 user 1655907661000<br /><br />PS D:\MyProjects\PowerShell>
我们之前讨论到的根目录,会发现这些目录在命令行工具中没有返回,例如/databricks-datasets。
需要注意的是命令行工具浏览的根目录即是DBFS的根目录。
启动集群观察DBFS
启动我们上一章创建的集群:登录到workspace, 选择左侧菜单compute, 选择创建的集群start, 等待集群启动成功之后,创建一个基于python的notebook。
我们先观察几个可以直接在notebook中可以使用的工具:
需要注意的是:
如下是一些操作的结果:
%fs ls<br />
%sh ls -l --color /dbfs/
display(dbutils.fs.ls("dbfs:/"))
import os<br />os.listdir('/dbfs/')
使用Python的代码演示一下如何读取和写入DBFS文件系统的实例:
以上DBFS快速熟悉一下就好了。
往期文章目录:
Azure Databricks学习
Azure语言服务:
机器学习算法:
主题
文章列表
Azure翻译服务入门
Azure Digital Twin入门
Azure虚拟机Web应用
Azure入门
Azure IoT 总的系列
Azure IoT Edge
Azure IoT Hub DPS服务
Azure IoT Hub系列文章
Azure认知搜索入门
Azure认知搜索概念学习
Azure机器人快速介绍
Azure指南
Azure Linux虚拟机教程
Azure机器学习入门系列
Azure云架构师入门修炼系列
Azure认知服务
Core 基础学习
Blazor文章列表
Core文章列表
.Net 异步编程指南
.Net Hosted基础
AzureDeveloper,一个分享和学习Azure技术的好去处,欢迎关注