gpt4 book ai didi

scala - 我们可以在数据帧 spark scala 中拥有的最大列数

转载 作者:行者123 更新时间:2023-12-04 19:31:05 24 4
gpt4 key购买 nike

我想知道数据框中可以包含的最大列数,在维护数据框中的列数方面是否有任何限制。
谢谢。

最佳答案

不说细节,答案是 ,Apache Spark 中的列数有大小限制。

从理论上讲,此限制取决于平台和每列中元素的大小。

不要忘记 Java 受 JVM 大小的限制,执行器也受该大小的限制 -
Java largest object size in Heap .

我会回去引用这个 Why does Spark RDD partition has 2GB limit for HDFS?这是指 HDFS 对块/分区大小的限制。

所以实际上有很多限制需要考虑。

这意味着您可以轻松找到硬限制(Int.MaxValue par ex.),但更重要的是 Spark 只能很好地扩展较长且相对较薄的数据。 (如 pault 所述)。

最后,您需要记住,从根本上说,您不能在执行程序/分区之间拆分单个记录。并且存在许多实际限制(GC、磁盘 IO),这使得非常广泛的数据不切实际。更不用说一些已知的错误了。

注意:我提到了@pault 和@RameshMaharjan,因为这个答案实际上是我们讨论的结果。 (以及 ofc @zero323 来自另一个 answer 的评论)。

关于scala - 我们可以在数据帧 spark scala 中拥有的最大列数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44557739/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com