gpt4 book ai didi

Azure数据工厂 "flatten hierarchy"

转载 作者:行者123 更新时间:2023-12-02 23:42:00 27 4
gpt4 key购买 nike

我希望有人经历过相同的过程并可以帮助我看看以下情况是否可能。

我目前构建了一个从 S3 存储桶进行复制的管道。该存储桶包含大量文件夹。 Azure 数据工厂是否有办法在从 S3 存储桶复制数据时忽略文件夹而只复制文件本身?我读过,复制事件具有“扁平化层次结构”,但我看到的最大限制是所有文件都被重命名,我不确定这些文件是否是这些文件夹中包含的所有文件,因为它提到它仅在“目标文件夹的第一层”中执行。

另一个问题是 S3 存储桶具有嵌套文件夹(例如:“domain/yyyy/mm/dd/file”),有些文件夹包含数据,有些不包含数据。唯一的优点是所有这些文件都包含相同的架构。

该管道的最终结果如下:

1) 从 S3 存储桶复制文件,而不复制文件夹结构2) 将文件加载到 Azure 数据库

如果有人使用 Azure 数据工厂或其他工具做过类似的事情,我将非常感谢您的见解。

最佳答案

vlado101,首先,我不得不说,您在问题中提到的“扁平化层次结构”适用于 sink ,非来源:

enter image description here

由于您的目的地是SQL DB,我认为这种复制行为与您的要求无关。根据我的测试(blob 存储,不是 aws s3,抱歉,因为我没有 asw 服务):

子文件夹中有 2 个 json 文件:

enter image description here

enter image description here

我配置了源数据集:

enter image description here

请确保recursive选择为true(指示是否从子文件夹递归读取数据或仅从指定文件夹读取数据。请注意,当recursive设置为true并且接收器是基于文件的存储时,不会复制空文件夹或子文件夹或在接收器处创建)并预览源数据如下

enter image description here

执行复制事件,子文件夹文件中的所有数据都将传输到目标 SQL 数据库表中:

enter image description here

当然,这个测试是基于 blob 存储,而不是 s3 存储桶。我相信它们是相似的,你可以测试一下。如有任何疑问,请告诉我。

关于Azure数据工厂 "flatten hierarchy",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58918399/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com