gpt4 book ai didi

azure - DBFS AZURE Databricks - 文件存储和 DBFS 的差异

转载 作者:行者123 更新时间:2023-12-04 17:18:43 27 4
gpt4 key购买 nike

我正在使用带有 ADLS 存储层的 Azure Databricks。我怀疑 DBFS 和 Filestore 之间有什么区别?知道吗,Filestore 中可以存储的文件的最大大小是多少?我们可以将输出文件存储在 Filestore 中然后覆盖它们吗?

谢谢。

最佳答案

DBFS 是云存储实现的抽象,允许您使用简单路径而不是完整 URL 来处理云存储中的文件。来自文档:

Databricks File System (DBFS) is a distributed file system mounted into a Databricks workspace and available on Databricks clusters. DBFS is an abstraction on top of scalable object storage and offers the following benefits:

  • Allows you to mount storage objects so that you can seamlessly access data without requiring credentials.
  • Allows you to interact with object storage using directory and file semantics instead of storage URLs.
  • Persists files to object storage, so you won’t lose data after you terminate a cluster.

在底层,它在 Azure 上使用相同的 ADLS,因此应应用相同的限制(current limit 是每个文件 200Tb)。

附注请注意,有所谓的DBFS Root - 从创建工作区期间自动创建的存储帐户创建,并且 DBFS 挂载到“外部”存储帐户。通常建议仅将 DBFS Root 用于临时文件,因为如果删除工作区,该存储帐户也会被删除。

关于azure - DBFS AZURE Databricks - 文件存储和 DBFS 的差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67564403/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com