gpt4 book ai didi

azure-databricks - 为什么 Azure Databricks 需要将数据存储在 Azure 的临时存储中

转载 作者:行者123 更新时间:2023-12-04 09:16:03 25 4
gpt4 key购买 nike

我正在关注有关使用 azure databricks 进行数据转换的教程,它说在将数据加载到 azure synapse 分析之前,由 azure databricks 转换的数据将首先保存在 azure blob 存储中的临时存储中,然后再加载到 azure synapse 分析中。为什么需要在加载到 azure 突触分析之前将其保存到临时存储中?

最佳答案

Azure 存储容器充当中介,在读取或写入 Azure Synapse 时存储大量数据。 Spark 使用其中一种内置连接器连接到存储容器:Azure Blob 存储或 Azure Data Lake Storage (ADLS) Gen2。
以下体系结构图显示了如何通过连接到外部资源(例如 Azure Blob 存储)的每个 Compute 节点上的数据移动服务 (DMS) 服务的每个 HDFS 桥来实现这一点。 PolyBase 然后在 SQL 数据仓库和提供快速加载性能的外部资源之间双向传输数据。
enter image description here
使用 PolyBase 提取、加载和转换数据
为 SQL 数据仓库实现 PolyBase ELT 的步骤是:

  • 将源数据提取到文本文件中。
  • 将数据加载到 Azure Blob 存储、Hadoop 或 Azure Data Lake Store。
  • 将数据导入
    使用 PolyBase 的 SQL 数据仓库暂存表。
  • 转换数据(可选)。
  • 将数据插入生产表。
  • 关于azure-databricks - 为什么 Azure Databricks 需要将数据存储在 Azure 的临时存储中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63208315/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com