gpt4 book ai didi

python - 如何重新分区 pyspark 数据框?

转载 作者:行者123 更新时间:2023-11-30 08:23:23 26 4
gpt4 key购买 nike

data.rdd.getNumPartitions() # output 2456

那我就做
data.rdd.repartition(3000)但是
data.rdd.getNumPartitions() # 输出仍然是 2456

如何更改分区数量。一种方法是首先将 DF 转换为 rdd,对其重新分区,然后将 rdd 转换回 DF。但这需要很多时间。另外,增加分区数量是否会使操作更加分散且更快?谢谢

最佳答案

您可以检查分区的数量:

data.rdd.partitions.size

要更改分区数量:

newDF = data.repartition(3000)

您可以检查分区的数量:

newDF.rdd.partitions.size

重新分区时要小心数据混洗,这很昂贵。如果需要,请查看coalesce

关于python - 如何重新分区 pyspark 数据框?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45844684/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com