gpt4 book ai didi

apache-spark - 使用每个分区中的 _SUCCESS 文件将分区数据集写入 HDFS/S3

转载 作者:行者123 更新时间:2023-12-02 02:54:49 24 4
gpt4 key购买 nike

将分区数据集写入 HDFS/S3 时,成功完成后将 _SUCCESS 文件写入输出目录。我很好奇是否有办法将 _SUCCESS 文件写入每个分区目录?

最佳答案

目前,您可以通过将文件直接写到 path/to/table/partition_key1=foo/partition_key2=bar 来获得您想要的结果。并且不使用 Parquet writer 的 partitionBy争论。

FWIW,我也相信_SUCCESS文件应该写到每个分区,特别是考虑到 SPARK-13207SPARK-20236已经解决。

关于apache-spark - 使用每个分区中的 _SUCCESS 文件将分区数据集写入 HDFS/S3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50051103/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com