gpt4 book ai didi

apache-spark - Spark.sql.shuffle.partitions 的最佳值应该是多少,或者在使用 Spark SQL 时如何增加分区?

转载 作者:行者123 更新时间:2023-12-03 07:27:32 25 4
gpt4 key购买 nike

我实际上使用 Spark SQL hiveContext.sql() 它使用 group by 查询,我遇到了 OOM 问题。因此,考虑将 spark.sql.shuffle.partitions 的值从默认值 200 增加到 1000,但这没有帮助。

我相信这个分区将共享数据洗牌负载,因此分区越多,要保存的数据就越少。我是 Spark 新手。我使用的是 Spark 1.4.0,并且有大约 1TB 的未压缩数据需要使用 hiveContext.sql() group by 查询进行处理。

最佳答案

如果您的随机播放内存不足,请尝试将 spark.sql.shuffle.partitions 设置为 2001。

Spark uses a different data structure for shuffle book-keeping when the number of partitions is greater than 2000:

private[spark] object MapStatus {

def apply(loc: BlockManagerId, uncompressedSizes: Array[Long]): MapStatus = {
if (uncompressedSizes.length > 2000) {
HighlyCompressedMapStatus(loc, uncompressedSizes)
} else {
new CompressedMapStatus(loc, uncompressedSizes)
}
}
...

我真的希望他们能让你独立配置它。

顺便说一句,我找到了this information in a Cloudera slide deck .

关于apache-spark - Spark.sql.shuffle.partitions 的最佳值应该是多少,或者在使用 Spark SQL 时如何增加分区?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32349611/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com