Azure Databricks入门 - 认识一下DBFS

优采云发布时间: 2022-07-28 02:29

　　Databricks File System简称DBFS, 在Databricks的部署中，它是一个分布式文件系统，是基于云的文件系统，为Spark计算引擎提供统一文件存取接口，这主要体现在如下几个方面：

　　另外需要注意的是DBFS有几个特殊的根目录：

　　这些是一个workspace新建之后，默认已经有的根目录，虽然对于workspace里的所有用户来说DBFS都是可读写的，不过建议不要在根目录随意写入不必要的数据。而是按照DBFS的推荐来放置和读写数据。

　　使用Databricks CLi来浏览DBFS

　　再次重申一下,DBFS是不依附集群存在而存在的，例如我们之前刚刚创建的新集群，虽然创建了一个集群，但是该集群并没有启动，使用Databricks CLi工具仍然是可以访问DBFS的。

　　注意

　　请按照之前的文章配置好Databricks cli工具

　　运行如下的命令浏览DBFS的根目录：

　　dbfs ls

　　返回如下结果：

PS D:\MyProjects\PowerShell> dbfs ls -l dir 0 FileStore 1658033203000 dir 0 databricks-results 0 dir 0 local_disk0 1657984126000 dir 0 mnt 1657951447000 dir 0 tmp 1657984614000 dir 0 user 1655907661000 PS D:\MyProjects\PowerShell>

　　我们之前讨论到的根目录，会发现这些目录在命令行工具中没有返回，例如/databricks-datasets。

　　需要注意的是命令行工具浏览的根目录即是DBFS的根目录。

　　启动集群观察DBFS

　　启动我们上一章创建的集群：登录到workspace, 选择左侧菜单compute, 选择创建的集群start, 等待集群启动成功之后，创建一个基于python的notebook。

　　我们先观察几个可以直接在notebook中可以使用的工具：

　　需要注意的是：

　　如下是一些操作的结果：

%fs ls

　　%sh ls -l --color /dbfs/

　　display(dbutils.fs.ls("dbfs:/"))

import os os.listdir('/dbfs/')

　　使用Python的代码演示一下如何读取和写入DBFS文件系统的实例：

　　以上DBFS快速熟悉一下就好了。

　　往期文章目录:

　　Azure Databricks学习

　　Azure语言服务:

　　机器学习算法：

　　主题‍

　　文章列表‍

　　Azure翻译服务入门

　　Azure Digital Twin入门‍

　　Azure虚拟机Web应用‍‍

　　Azure入门‍

　　Azure IoT 总的系列

　　Azure IoT Edge

　　Azure IoT Hub DPS服务‍

　　Azure IoT Hub系列文章‍

　　Azure认知搜索入门‍

　　Azure认知搜索概念学习

　　Azure机器人快速介绍‍

　　Azure指南‍

　　Azure Linux虚拟机教程

　　Azure机器学习入门系列

　　Azure云架构师入门修炼系列

　　Azure认知服务

　　 Core 基础学习

　　Blazor文章列表

　　‍

　　 Core文章列表

　　.Net 异步编程指南

　　.Net Hosted基础

　　AzureDeveloper，一个分享和学习Azure技术的好去处，欢迎关注

0

2022-07-28

搜索引擎优化入门指南

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

Azure Databricks入门 - 认识一下DBFS

0 个评论

发起人

AI时代内容工厂

Azure Databricks入门 - 认识一下DBFS

0 个评论

发起人

相关问题