gpt4 book ai didi

apache-spark - Apache Spark 中 describe() 和 summary() 的区别

转载 作者:行者123 更新时间:2023-12-05 08:52:34 24 4
gpt4 key购买 nike

summary()describe() 有什么区别?

看起来它们都服务于相同的目的。我没有找到任何差异(如果有的话)。

最佳答案

如果我们传递任何参数,那么这些函数将用于不同的目的:

.describe() 函数采用 cols:String*(df 中的列)作为可选参数。

.summary() 函数采用 statistics:String*(count,mean,stddev..etc) 作为可选参数。

示例:

scala> val df_des=Seq((1,"a"),(2,"b"),(3,"c")).toDF("id","name")
scala> df_des.describe().show(false) //without args
//Result:
//+-------+---+----+
//|summary|id |name|
//+-------+---+----+
//|count |3 |3 |
//|mean |2.0|null|
//|stddev |1.0|null|
//|min |1 |a |
//|max |3 |c |
//+-------+---+----+
scala> df_des.summary().show(false) //without args
//+-------+---+----+
//|summary|id |name|
//+-------+---+----+
//|count |3 |3 |
//|mean |2.0|null|
//|stddev |1.0|null|
//|min |1 |a |
//|25% |1 |null|
//|50% |2 |null|
//|75% |3 |null|
//|max |3 |c |
//+-------+---+----+
scala> df_des.describe("id").show(false) //descibe on id column only
//+-------+---+
//|summary|id |
//+-------+---+
//|count |3 |
//|mean |2.0|
//|stddev |1.0|
//|min |1 |
//|max |3 |
//+-------+---+
scala> df_des.summary("count").show(false) //get count summary only
//+-------+---+----+
//|summary|id |name|
//+-------+---+----+
//|count |3 |3 |
//+-------+---+----+

关于apache-spark - Apache Spark 中 describe() 和 summary() 的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56428260/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com