gpt4 book ai didi

scala - 单个 RDD 记录可以有多大?

转载 作者:行者123 更新时间:2023-12-04 21:44:02 25 4
gpt4 key购买 nike

我有一个像这样的 RDD:

val graphInfo: RDD[(Long, Int, Long, Long, Iterable[Long])]

节点由一个Long型整型表示,将存储在graphInfoIterable[Long]中。该 Iterable 中可以包含多少个元素?单个 RDD 记录的大小有什么限制(如果有)?

最佳答案

如前所述,元素的数量没有限制。

但是,单个 RDD 记录使用的内存数量可能存在限制:Spark 将最大分区 大小限制为2GB(参见 SPARK-6235)。每个分区都是记录的集合,因此理论上一条记录的上限是 2GB(当每个分区包含一个单个记录时达到此限制)。

在实践中,不鼓励超过几兆字节的记录,因为上述限制可能会迫使您人为地增加分区数,超出最佳分区数。 Spark 的所有优化考虑旨在处理尽可能多的记录(给定足够的资源),而不是处理尽可能多的记录。

关于scala - 单个 RDD 记录可以有多大?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35885481/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com