gpt4 book ai didi

azure - 如何将文件从多个源文件夹复制到 Azure Data Lake Storage gen 2 中的目标文件夹

转载 作者:行者123 更新时间:2023-12-03 02:43:16 25 4
gpt4 key购买 nike

我在 ADLS 中有多个文件夹,每个文件夹中都有增量文件。我的目标是将所有增量文件转换为 Parquet 格式,并将其放置在不同的文件夹中。我想在目标中保留与源中相同的文件夹名称。

我编写了一个脚本,该脚本接受文件夹名称作为参数,然后将该文件夹中的所有增量文件转换为 Parquet ,并移动到与源文件夹同名的目标目录。下面是代码片段。

var loadDelta = spark.read.format("delta").load(deltaPath)
loadDelta.write.format("parquet").mode(SaveMode.Overwrite).save(parquetPath)

在这里,我必须为每个文件夹定义 deltaPath(源文件夹)和 parquetPath(目标文件夹)...如果我必须将其扩展到 100 个文件夹,这会适得其反。我想知道是否有一种方法可以使用代码转换源目录中存在的所有文件夹的文件并将其放置在类似文件夹结构中的目标目录中。

例如这是源目录,它有 4 个文件夹/表。每个文件夹中都有增量文件。 SourceDirectory

目的是在测试目录(目标)中创建相同的 4 个文件夹名称,而不提供任何特定文件夹名称作为输入,并使用转换代码将文件转换为 parquet 格式。

DesiredTargetDirectory

如何递归地执行转换过程。任何线索/建议将不胜感激。

最佳答案

您可以使用 copyData 事件创建 DataFactory 管道。您只需在源输入中定义数据文件夹目标(在 copyData 事件配置中),并在 Sink 中使用 Parquet 格式定义目标数据文件夹(在 copyData 事件配置中)。

关于azure - 如何将文件从多个源文件夹复制到 Azure Data Lake Storage gen 2 中的目标文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59981124/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com