gpt4 book ai didi

scala - 有没有更好的方法来显示整个 Spark SQL DataFrame?

转载 作者:行者123 更新时间:2023-12-03 07:48:30 25 4
gpt4 key购买 nike

我想使用 Scala API 显示整个 Apache Spark SQL DataFrame。我可以使用 show() 方法:

myDataFrame.show(Int.MaxValue)

是否有比使用 Int.MaxValue 更好的方法来显示整个 DataFrame?

最佳答案

通常不建议将整个 DataFrame 显示到标准输出,因为这意味着您需要将整个 DataFrame(其所有值)拉到驱动程序(除非 DataFrame 已经是本地的,这您可以使用df.isLocal进行检查)。

除非您提前知道数据集的大小足够小,以便驱动程序 JVM 进程有足够的可用内存来容纳所有值,否则这样做是不安全的。这就是为什么 DataFrame API 的 show() 默认情况下仅显示前 20 行。

您可以使用返回Array[T]df.collect,然后迭代每一行并打印它:

df.collect.foreach(println)

但是您会丢失 df.showString(numRows: Int) 中实现的所有格式(show() 内部使用)。

所以不,我想没有更好的方法。

关于scala - 有没有更好的方法来显示整个 Spark SQL DataFrame?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30264373/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com