gpt4 book ai didi

apache-spark - Spark 1.6 : filtering DataFrames generated by describe()

转载 作者:行者123 更新时间:2023-12-04 03:57:14 25 4
gpt4 key购买 nike

当我在DataFrame上调用describe函数时,就会出现问题:

val statsDF = myDataFrame.describe()

调用describe函数将产生以下输出:
statsDF: org.apache.spark.sql.DataFrame = [summary: string, count: string]

我可以通过调用 statsDF正常显示 statsDF.show()
+-------+------------------+
|summary| count|
+-------+------------------+
| count| 53173|
| mean|104.76128862392568|
| stddev|3577.8184333911513|
| min| 1|
| max| 558407|
+-------+------------------+

我现在想从 statsDF获取标准偏差和均值,但是当我尝试通过执行以下操作来收集值时:

val temp = statsDF.where($"summary" === "stddev").collect()

我收到了 Task not serializable异常。

当我打电话时,我也面临着同样的异常(exception):

statsDF.where($"summary" === "stddev").show()

看来我们无法过滤 describe()函数生成的DataFrame?

最佳答案

我考虑过一个玩具数据集,其中包含一些健康疾病数据


val stddev_tobacco = rawData.describe().rdd.map{ 
case r : Row => (r.getAs[String]("summary"),r.get(1))
}.filter(_._1 == "stddev").map(_._2).collect

关于apache-spark - Spark 1.6 : filtering DataFrames generated by describe(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35272086/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com