gpt4 book ai didi

apache-spark - 需要更少的 Parquet 文件

转载 作者:行者123 更新时间:2023-12-02 03:08:07 24 4
gpt4 key购买 nike

我正在做以下过程

rdd.toDF.write.mode(SaveMode.Append).partitionBy("Some Column").parquet(output_path)

但是,在每个分区下,parquet 文件太多,而且每个文件的大小都非常小,这将使我的后续步骤加载所有 parquet 文件变得非常缓慢。有没有更好的办法,在每个分区下,少做parquet文件,增加单个parquet文件的大小?

最佳答案

您可以在保存前重新分区:

rdd.toDF.repartition("Some Column").write.mode(SaveMode.Append).partitionBy("Some Column")

关于apache-spark - 需要更少的 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39254143/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com