gpt4 book ai didi

Azure 数据工厂附加大量具有与 csv 文件不同架构的文件

转载 作者:行者123 更新时间:2023-12-03 00:00:55 24 4
gpt4 key购买 nike

我们有 500 个 CSV 文件上传到 Azure 存储容器。这些文件使用 4 种不同的架构,这意味着它们几乎没有不同的列,并且某些列在所有文件中都是通用的。

我们使用 ADF 和架构漂移来映射接收器和源中的列,并能够写入文件。

但这不起作用,它只使用它为每个文件处理的第一个文件的架构,这会导致数据问题。关于这个问题,请多多指教。

我们针对三种情况运行了管道,但问题尚未解决。在这三种情况下都出现了与下面提到的相同的问题:

1.映射不正确,即 A 类型中的描述和 PayClass 映射到 WBSname 和 Activity Name2. 如果其中一个文件中少一列(缺少列)也会干扰映射,即一个文件不具有将组错误映射到其他列的资源类型。

案例1源和接收器处没有架构漂移空虚拟文件,其中包含在源创建和上传的所有列带有列模式的派生表

案例2:源和接收器处的模式漂移包含在源创建和上传的所有列的虚拟文件带有列模式的派生表

案例 3:源处的模式漂移/接收器处无模式漂移包含在源创建和上传的所有列的虚拟文件带有列模式的派生表

最佳答案

这是因为单源转换读取的文件内有不同的架构。

架构漂移将自动处理源架构因管道中的不同调用而发生更改的情况。

在您的情况下解决此问题的方法是拥有 4 个源:每个 CSV 架构类型有 1 个源。您始终可以将结果合并到一个流中,并在最后将它们合并在一起。

如果您在此场景中对 4 种不同的源类型使用架构漂移,数据流将自动处理发现更多列以及此数据流的每次管道执行时列发生更改的情况。

顺便说一句,您要求的这个 schemaMerge 功能现在可以在 ADF 数据流中的 Parquet 源中使用。我们正在努力将 native schemaMerge 添加到 CSV 源。在那之前,您需要使用一种类似于我上面描述的方法。

关于Azure 数据工厂附加大量具有与 csv 文件不同架构的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65016506/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com