gpt4 book ai didi

python - Pyspark 中的范围分区

转载 作者:行者123 更新时间:2023-12-05 01:40:50 28 4
gpt4 key购买 nike

假设我有一个包含 1,000,000 个 ID 的数据集。我将如何按范围对 100 个分区进行分区。我在 Scala 中看到了 RangePartitioner 类,但它似乎在 PySpark API 中不可用。

我有一个非常大的数据集,目前正在按唯一 ID 进行分区,但这会创建太多分区。我想了解 PySpark 中范围分区的最佳实践

df.write.partitionBy('unique_id').mode('overwrite').csv(file://test/)

这会将每个 id 放在其自己的分区中。

我似乎无法在 PySpark 中找到任何关于范围分区的文档。

最佳答案

对于pyspark 2.4及以上版本,可以使用pyspark.sql.DataFrame.repartitionByRange :

df.repartitionByRange(100, 'unique_id').write.mode('overwrite').csv('file:://test/')

关于python - Pyspark 中的范围分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55734263/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com