gpt4 book ai didi

azure - 使用数据流的联合事件组合 azure 数据工厂中的多个文件

转载 作者:行者123 更新时间:2023-12-03 06:06:57 26 4
gpt4 key购买 nike

您好,我有很多文件想要使用 Azure 数据工厂合并。

我目前正在数据流中使用联合事件来一次合并几个文件,但我有大约一千个文件,想知道是否有更简单的方法来做到这一点?这些文件都放在同一个文件夹中,并且具有相同的列标题

我也尝试过使用复制事件,但这会弄乱接收器数据集中的文件行,因此我暂时避免这样做,因为我需要对行进行排序。

最佳答案

在 ADF、复制事件或数据流合并文件中,顺序是随机的。但如果您的文件位于同一文件夹中,您可以使用数据流尝试以下解决方法。

这些是我的示例文件:

enter image description here

我在每个文件中获取了一些示例数据,如下所示:

Id,Name,Age
1,Rakesh,22
2,Laddu,22
3,Virat,34

由于您希望数据顺序与上面的文件顺序相同,因此使用文件名作为排序列。

enter image description here

在数据集中给出容器的路径,在数据流的通配符路径中给出剩余的路径,如上面的folder/*.csv

您可以看到随机的源数据预览。

enter image description here

但是在这里,它不会更改单个文件中的行顺序。因此,如果我们按 filename 列对上述数据进行排序,我们就可以根据文件名以正确的顺序获取数据。

使用排序转换,如下所示。

enter image description here

您可以看到我们得到了正确的订单。

enter image description here

然后使用选择转换从上述数据中删除额外的列filename。将其转换为水槽。

接收器文件:

enter image description here

关于azure - 使用数据流的联合事件组合 azure 数据工厂中的多个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/77214436/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com