gpt4 book ai didi

azure - 输出多个 CSV 文件,并通过 Azure 数据工厂使用映射数据流转换数据,合并为一个而不影响性能

转载 作者:行者123 更新时间:2023-12-03 02:16:46 24 4
gpt4 key购买 nike

我按照下面的示例进行操作,一切都很顺利。

https://learn.microsoft.com/en-gb/azure/data-factory/tutorial-data-flow

下面是关于输出文件和行的信息:

If you followed this tutorial correctly, you should have written 83rows and 2 columns into your sink folder.

下面是我的示例的结果,行数和列数相同是正确的。 enter image description here

下面是输出。请注意,文件总数是 77 个,而不是 83 个,而不是 1 个。 enter image description here

问题::有这么多 csv 文件(77 个项目)是否正确?

问题::如何在不减慢进程速度的情况下将所有文件合并为一个文件?

我可以通过下面的链接创建一个文件,该链接会警告速度会减慢该过程。

How to remove extra files when sinking CSV files to Azure Data Lake Gen2 with Azure Data Factory data flow?

最佳答案

该过程生成的文件数量取决于多种因素。如果您在接收器的优化选项卡中设置了默认分区,这将告诉 ADF 使用 Spark 的当前分区模式,该模式将基于工作节点上可用的核心数量。因此,文件的数量将根据数据在工作人员之间的分布方式而有所不同。您可以在接收器的优化选项卡中手动设置分区数。或者,如果您希望命名单个输出文件,也可以这样做,但这会导致 Spark 合并到单个分区,这就是您看到该警告的原因。您可能会发现写入该文件需要更长的时间,因为 Spark 必须合并现有分区。但这就是大数据分布式处理集群的本质。

关于azure - 输出多个 CSV 文件,并通过 Azure 数据工厂使用映射数据流转换数据,合并为一个而不影响性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70868012/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com