gpt4 book ai didi

azure - 使用Azure Data Lake时是否需要数据仓库?

转载 作者:行者123 更新时间:2023-12-02 05:57:03 25 4
gpt4 key购买 nike

我正在探索 Azure Data Lake,我是这个领域的新手。我探索了很多东西并阅读了很多文章。基本上我必须根据不同来源的数据开发Power BI 仪表板

在经典的 SQL Server 堆栈中,我可以编写 ETL(提取、转换、加载)过程,将数据从系统数据库引入数据仓库数据库。然后通过 SSAS 等将该数据仓库与 Power BI 结合使用。

但我想使用 Azure Data Lake,并且我探索了 Azure Data Lake Store 和 Azure Data Lake Analytic(U-SQL)。我画了下面的架构图。

enter image description here

  1. 当前的流程中是否有我遗漏的东西应用?
  2. 我可以使用以下方式直接从 Azure Data Lake 获取数据Power BI 因此不需要数据仓库。我说得对吗?
  3. 我可以在 Azure Data Lake 中创建一个数据库,它将作为我的数据仓库吗?
  4. Azure Data Lake 中原始文件的输出数据的最佳格式是什么,例如 .csv?

最佳答案

1 和 2) 目前,ADLS 仅对允许 PowerBI 直接通过其查询提供有限的支持。如果您的数据太大(我认为大于 10GB 左右),则 PowerBI 无法直接处理您的 ADLS 帐户中的数据。在这种情况下,我建议将 ADLS 中处理的数据移动到 SQL 数据库或 SQL 数据仓库,因为这允许 PowerBI 操作更大量的数据。您可以使用 Azure 数据工厂来移动数据,如果将数据移动到 SQL DW 中,则可以使用 Polybase。

3) 数据湖仍然与数据仓库不同,它们具有不同的优点和缺点。数据湖最适合存储原始数据或稍微处理过的数据,这些数据可能具有多种格式和架构。使用 Azure Data Lake Analytics 处理和筛选此数据后,可以将该数据移动到 SQL DW 中以进行交互式分析和数据管理(但代价是架构不灵活)。

4) 取决于您的用例。如果您打算继续处理 ADLS 中的数据,我建议您输出到 ADLS 表中以获得更高的性能。但是,如果您需要将此数据传递到另一个服务中,那么 CSV 是一个不错的选择。您可以在我们的 GitHub 上找到更多输出器例如 JSON 和 XML。

关于azure - 使用Azure Data Lake时是否需要数据仓库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49309191/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com