gpt4 book ai didi

scala - 计算 Spark DataFrame 中非空值的数量

转载 作者:行者123 更新时间:2023-12-04 16:51:10 26 4
gpt4 key购买 nike

我有一个包含一些列的数据框,在进行分析之前,我想了解此类数据框的完整程度,因此我想过滤数据框并为每列计算非空值的数量,可能返回返回一个数据框。

基本上,我试图达到与 this question 中表达的结果相同的结果。但是使用 Scala 而不是 Python ...

说你有:

val row = Row("x", "y", "z")
val df = sc.parallelize(Seq(row(0, 4, 3), row(None, 3, 4), row(None, None, 5))).toDF()

您如何总结每列的非空数量并返回具有相同列数和只有一行答案的数据框?

最佳答案

一种直接的选择是使用 .describe()函数来获取数据框的摘要,其中计数行包括非空值的计数:

df.describe().filter($"summary" === "count").show
+-------+---+---+---+
|summary| x| y| z|
+-------+---+---+---+
| count| 1| 2| 3|
+-------+---+---+---+

关于scala - 计算 Spark DataFrame 中非空值的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41765739/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com