gpt4 book ai didi

apache-spark - 使用 PySpark 将数据帧写入 Parquet 时如何指定分区号

转载 作者:行者123 更新时间:2023-12-01 23:30:47 26 4
gpt4 key购买 nike

我想写一个 Spark 数据帧到 Parquet ,而不是将它指定为 partitionBynumPartitions或每个分区的大小。在 PySpark 中是否有一种简单的方法可以做到这一点?

最佳答案

如果您只关心分区数,则该方法与任何其他输出格式完全相同 - 您可以重新分区 DataFrame具有给定数量的分区并使用 DataFrameWriter然后:

df.repartition(n).write.parquet(some_path)

关于apache-spark - 使用 PySpark 将数据帧写入 Parquet 时如何指定分区号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37105703/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com