gpt4 book ai didi

azure - 数据库 DBFS

转载 作者:行者123 更新时间:2023-12-01 07:36:35 25 4
gpt4 key购买 nike

我需要了解一些有关 Databricks DBFS 的信息。

用简单的基本术语来说,它是什么,它的目的是什么以及它允许​​我做什么?

关于 databricks 的文档,说的是这个效果..

“DBFS 中的文件会保留到 Azure Blob 存储中,因此即使终止集群也不会丢失数据。”

任何见解都会有所帮助,但无法找到从架构和使用角度深入了解其细节的文档

最佳答案

我有使用DBFS的经验,它是一个很棒的存储,您可以使用DBFS CLI从本地计算机上传数据! CLI setup有点棘手,但是当你管理时,你可以轻松地在此环境中移动整个文件夹(记住使用 -overwrite!)

  1. 创建文件夹
  2. 上传文件
  3. 修改、删除文件和文件夹

使用 Scala,您可以使用如下代码轻松提取存储在此存储中的数据:

val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/test.csv")
.select(some_column_name)

或者读取整个文件夹以处理所有可用的 csv 文件:

val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/*.csv")
.select(some_column_name)

我认为它很容易使用和学习,我希望您发现此信息有帮助!

关于azure - 数据库 DBFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54812733/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com