gpt4 book ai didi

azure - Azure Databricks 中 DBFS 的数据大小限制是多少

转载 作者:行者123 更新时间:2023-12-05 05:02:42 28 4
gpt4 key购买 nike

我读到here AWS Databricks 上单个文件的存储限制为 5TB,我们可以存储任意数量的文件那么同样的限制也适用于 Azure Databricks 吗?或者,Azure Databricks 上是否还有其他限制?

更新:

@CHEEKATLAPRADEEP 感谢您的解释,但是,有人可以分享一下背后的原因吗:“我们建议您将数据存储在已安装的对象存储中,而不是 DBFS 根目录中”

我需要在 Power BI 中使用 DirectQuery(因为数据量巨大),而 ADLS 目前还不支持。

最佳答案

来自 Azure Databricks 最佳实践:Do not Store any Production Data in Default DBFS Folders

enter image description here

重要提示:即使 DBFS 根是可写的,我们还是建议您将数据存储在已安装的对象存储中,而不是 DBFS 根

建议将数据存储在已安装的存储帐户中而不是存储在存储帐户中的原因位于 ADB 工作区中。

原因1:当您通过存储资源管理器在外部使用同一存储帐户时,您没有写入权限。

原因 2:您不能将相同的存储帐户用于另一个 ADB 工作区,也不能将相同的存储帐户链接服务用于 Azure 数据工厂或 Azure synapse 工作区。

原因 3:将来,您决定使用 Azure Synapse 工作区而不是 ADB。

原因 4:如果您想删除现有工作区该怎么办。

Databricks 文件系统 (DBFS) 是安装到 Azure Databricks 工作区并可在 Azure Databricks 群集上使用的分布式文件系统。 DBFS 是可扩展对象存储(即 ADLS gen2)之上的抽象。

Azure Data Lake Storage Gen2 中可以存储的数据量没有限制。

注意:Azure Data Lake Storage Gen2 能够存储和提供许多艾字节的数据。

For Azure Databricks Filesystem (DBFS) - Support only files less than 2GB in size.

注意:如果您使用本地文件 I/O API 读取或写入大于 2GB 的文件,您可能会看到损坏的文件。相反,请使用 DBFS CLI、dbutils.fs 或 Spark API 访问大于 2GB 的文件,或者使用/dbfs/ml 文件夹。

For Azure Storage – Maximum storage account capacity is 5 PiB Petabytes.

下表介绍了 Azure 通用 v1、v2、Blob 存储和 block Blob 存储帐户的默认限制。入口限制是指发送到存储帐户的所有数据。导出限制是指从存储帐户接收的所有数据。

enter image description here

注意:单个 block Blob 的限制为 4.75 TB

enter image description here

关于azure - Azure Databricks 中 DBFS 的数据大小限制是多少,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62028296/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com