gpt4 book ai didi

azure - 如何从按日期文件夹分区数据的 Azure Data Lake 转换到 Delta Lake

转载 作者:行者123 更新时间:2023-12-03 06:54:03 24 4
gpt4 key购买 nike

我拥有一个 Azure Data Lake gen2,其数据按日期时间嵌套文件夹进行分区。

我想向我的团队提供 Delta Lake 格式,但我不确定是否应该创建一个新的存储帐户并将数据复制为 Delta 格式,或者将当前的 Azure 数据湖转换为 Delta 是否是最佳实践湖泊格式。

有人可以就此事提供任何提示吗?

最佳答案

AFAIK,Delta 格式仅支持内联数据集,并且仅在数据流中,我们可以拥有内联数据集。

因此,我的建议是为此使用数据流。
由于您在日期时间嵌套文件夹中拥有数据,因此我使用如下示例日期进行了复制。我已在文件夹 10 和 9 中上传了一个示例 csv 文件。

enter image description here

在 ADF 中创建数据流,并在源中选择内联数据集以提供我们想要的通配符路径。选择您的数据格式,这里是分隔文本。也提供链接服务。

enter image description here

假设所有文件的嵌套文件夹结构都相同,请根据您的路径级别提供如下通配符路径。

enter image description here

现在,创建增量格式接收器,如下所示。

enter image description here

也提供链接服务。
在接收器设置中,提供增量文件的文件夹和更新方法。

enter image description here

执行后您可以看到在文件夹路径中创建了增量格式文件。

enter image description here

关于azure - 如何从按日期文件夹分区数据的 Azure Data Lake 转换到 Delta Lake,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73291840/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com