gpt4 book ai didi

mosaic-decisions - Mosaic Decisions Azure BLOB 编写器节点创建多个文件

转载 作者:行者123 更新时间:2023-12-04 09:38:31 26 4
gpt4 key购买 nike

我正在使用镶嵌决策数据流功能从 Azure blob 读取文件,进行一些转换并将该数据写回 Azure。它工作正常,除了在我给出的输出文件路径中,它创建了一个文件夹,我可以看到许多文件的名称中带有一些奇怪的“part-000”等。我需要的是该输出位置中的单个文件——不多。有没有解决的办法?

最佳答案

Mosaic-Decisions 使用 apache spark 作为其后端执行引擎。在 Spark 中,读取的数据帧被分成多个分区,这些分区并行写入输出位置。这就是它在目标位置创建多个文件的原因,其中包含“part-0000”、“part-0001”等(这里的部分代表分区)。

解决方法是在 writer 节点中检查“combine-output-files-into-one”。这会将所有零件文件合并为一个大文件。但是请谨慎使用它,并且仅当您确实需要单个文件时才使用它 - 因为这会带来性能权衡。

关于mosaic-decisions - Mosaic Decisions Azure BLOB 编写器节点创建多个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62437614/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com