Azure Data Lake Gen2 与存储帐户-6ren

Azure Data Lake Gen2 与存储帐户

转载作者：行者123 更新时间：2023-12-03 02:38:56

25

4

我需要处理一些大数据并计划部署Databricks集群和存储技术。目前正在评估支持对象和文件存储的 Data Lake Gen2。存储帐户(blob、文件、表、队列)也具有类似的功能，可以处理基于文件和基于对象的存储需求。由于这些相似之处，我对选择一个选项感到有点困惑。有人可以澄清以下问题吗？

除了 HDFS 支持之外，我还应该针对存储帐户使用 Data Lake Gen2 的重要功能是什么？
启用了分层命名空间的存储帐户 v2 == Data Lake Gen2。如果是这样，我可以使用文件系统创建文件共享并将其安装在我的虚拟机中，就像 Storage acc 的文件系统一样吗？
对于从 Databricks 访问数据，这两者中哪一个更适合大数据工作负载。我可以看到存储帐户也可以安装为 DBFS，它仍然可以利用分布式处理。

最佳答案

Except HDFS support, what else is a significant feature that I should use Data Lake Gen2 against Storage Account?

答:还有其他好处。简而言之，好处是性能/管理/安全性以及成本。更多详情，您可以引用this official article .

Storage Account v2 with Hierarchical namespace enabled == Data Lake Gen2. If so, can I use File System to create file shares and mount them in my VM as like Storage acc's File system?

答案:当然，ADLS Gen2 与 Blob 存储一样支持文件共享挂载。

For accessing data from Databricks, which one of these two will be better for big data workloads. I can see Storage account can also be mounted as DBFS which can still leverage the distributed processing.

答案:ADLS Gen2 也可以是 mounted as DBFS 。根据答案 1，更好的应该是 ADLS Gen2。

关于Azure Data Lake Gen2 与存储帐户，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62176507/

25

4

0

文章推荐： azure - 默认情况下在新子网 (Azure) 上应用 NSG/ASG

文章推荐： Azure AD 定价

文章推荐： azure - 从 azure Storage c# 下载 Zip 文件

文章推荐： Azure 服务总线请求回复模式

azure-data-lake - Azure Data Lake Analytics 中的内存限制
我已经为 NetCDF 文件实现了一个自定义提取器，并在输出变量之前将变量加载到内存中的数组中。有些数组可能很大，所以我想知道 ADLA 中的内存限制是多少。您是否可以分配最大内存量？最佳答案每个
azure-data-lake - 优化 Azure Data Lake 中的最大并行度
准则是什么，或者我们在哪里可以找到设计系统以实现最佳并行性的准则。我知道数据被拆分到各个节点并为此进行了优化。我在文件中的数据目前包含多个客户、站点、产品和用户。我需要按客户、站点、产品进行聚合，这
azure - 如何从按日期文件夹分区数据的 Azure Data Lake 转换到 Delta Lake
我拥有一个 Azure Data Lake gen2，其数据按日期时间嵌套文件夹进行分区。我想向我的团队提供 Delta Lake 格式，但我不确定是否应该创建一个新的存储帐户并将数据复制为 Del
azure-data-lake - 我可以有任何关于 Azure Data Lake Internals 的书籍吗？
我不想将 ADL 和 ADLA 用作黑匣子。我需要了解齿轮如何在引擎盖下旋转才能有效地使用它。我在哪里可以找到描述内部结构的信息: 如何处理 U-SQL 查询并行性是如何工作的如何在 ADL 中
azure-data-lake - 是否有适用于 Azure Data Lake Store 的本地模拟器
在为 Azure 存储帐户开发时，我可以运行 Microsoft Storage Emulator 来在本地保留 Blob、队列和表，而无需在线连接到 Azure。 Azure Data Lake S
azure - "Data Lake Store"的 Azure Data Lake 存储连接字符串是什么
我正在尝试针对 AzureStorageEmulator 为我的 Azure Data Lake Storage (v1) 存储库编写单元测试。这可能吗？如果是这样，创建客户端的参数应该使用什么？另外
azure - Azure Synapse 中 Delta Lake 和 Lake 数据库之间的区别
我正在 Azure Synapse 中构建 Lakehouse 架构，并且对使用 Delta-lake 还是 Lake 数据库犹豫不决。两者似乎具有大致相同的功能 - 我可以使用 Spark 执行
azure - Azure Synapse 中 Delta Lake 和 Lake 数据库之间的区别
我正在 Azure Synapse 中构建 Lakehouse 架构，并且对使用 Delta-lake 还是 Lake 数据库犹豫不决。两者似乎具有大致相同的功能 - 我可以使用 Spark 执行
azure-data-lake - 是否可以从 Azure Data Lake Analytics 中删除已完成的作业？
我有很多已完成的工作堆积如山，所以我想清理它们。 Should we delete DataLake Analytic Job after completion? 的答案似乎表明可以删除作业，但我不知
azure - 将不同类型的文件从 Gen1 Azur Lake 复制到具有属性的 Azur Gen2 Lake(如上次更新)
我需要将所有数据从 Azur 数据湖 Gen1 迁移到 Lake Gen2。在我的湖中，我们混合了不同类型的文件(.txt、.zip、.json 等)。我们希望将它们按原样移至 GEN2 湖。除此之外
azure-data-lake - 如何在 Azure Data Lake 中安排 U-SQL 查询？
我想每天在 azure 数据湖中执行一个查询。我们可以在 azure 数据湖中安排 U-SQL 查询吗？最佳答案目前，Data Lake Analytics 中没有内置方式来安排 U-SQL 作业
azure-data-lake - 使用 Azure Data Lake Analytics 处理事件中心捕获 AVRO 文件
我正在尝试从事件中心捕获生成的 AVRO 文件中提取数据。在大多数情况下，这可以完美地工作。但是某些文件给我带来了问题。当我运行以下 U-SQL 作业时，出现错误: USE DATABASE Metr
azure - Azure 的 "Data Lake Storage Gen2"和 "Data Lake Gen2"之间有什么区别？
我对在 Azure 上创建存储帐户时可用的选项感到困惑，正在寻求澄清。如果我从 Azure 市场创建新的“存储帐户”(标准层)，系统会在高级设置中激活“Data Lake Storage Gen2”
azure - Azure Data Lake Store 上的公共(public)数据集可与 Data Lake Analytics 一起使用
Azure Data Lake 是否存储公共(public)数据集以与 Azure Data Lake Analytics 一起使用？ Google BigQuery 提供了类似的公共(public)
excel - 如何在 Azure Data Lake、Azure SQL、Azure Data Lake Analytics 和 Azure SQL VM 之间做出决定？
我是 Azure 新手，因此尝试了解何时以及如何使用哪些服务。目前，我有一个 Excel 文件，其中有几个选项卡，需要进行一些转换才能创建一个 Excel 文件选项卡(在源文件本身内 - 比如说选项
delta-lake - 三角洲湖表元数据
Delta Lake 在哪里存储表元数据信息。我在我的独立机器上使用 spark 2.6(不是 Databricks)。我的假设是，如果我重新启动 spark，将删除在 delta lake spar
delta-lake - 内部部署的三角洲湖
是否可以在本地实现三角洲湖？如果是，需要安装什么软件/工具？我正在尝试在内部实现一个 delta 湖来分析一些日志文件和数据库表。我当前的机器装有 ubuntu，apache spark。不确定还需
delta-lake - 如何手动检查增量表？
Delta Lake 每 10 个版本自动创建一个检查点。有没有办法手动创建检查点？最佳答案 import org.apache.spark.sql.delta.DeltaLog DeltaLog.
azure - 如何防止重复条目进入Azure存储的Delta Lake
我有一个以 delta 格式存储到 Adls 中的数据框，现在当我尝试将新的更新行附加到该 delta Lake 时，有什么方法可以删除 delta 中的旧现有记录并添加新记录更新记录。 Delta
hadoop - 从头开始构建Data Lake
我正在尝试从头开始构建“数据湖”。我了解数据湖的工作原理和目的。遍布互联网。但是，当出现问题时，如何从头开始构建一个问题就没有了。我想了解是否: Data warehouse + Hadoop = D

首页

博学

6Ren·AI

商城

Azure Data Lake Gen2 与存储帐户