gpt4 book ai didi

performance - RDD 中的分区数和 Spark 中的性能

转载 作者:行者123 更新时间:2023-12-03 08:44:24 25 4
gpt4 key购买 nike

在 Pyspark 中,我可以从列表中创建一个 RDD 并决定有多少个分区:

sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)

我决定对 RDD 进行分区的分区数量如何影响性能?
这如何取决于我的机器拥有的核心数量?

最佳答案

主要影响是指定太少的分区或 分区太多。

分区太少 您不会利用集群中的所有可用核心。

分区过多 管理许多小任务会产生过多的开销。

在两者之间,第一个对性能的影响要大得多。此时,对于分区计数低于 1000 的情况,调度过多的 smalls 任务的影响相对较小。如果您有数万个分区,那么 spark 会得到 非常减缓。

关于performance - RDD 中的分区数和 Spark 中的性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35800795/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com