gpt4 book ai didi

python - PySpark Dataframe Groupby 和计算空值

转载 作者:行者123 更新时间:2023-12-01 08:10:47 27 4
gpt4 key购买 nike

我有一个以下形式的 Spark Dataframe:

+------+-------+-----+--------+
| Year | Month | Day | Ticker |
+------+-------+-----+--------+

我尝试按“年份”对所有值进行分组,并计算每年每列中缺失值的数量。

我找到了以下代码片段(忘记来自哪里):

df.select(*(sum(col(c).isNull().cast("int")).alias(c) for c in df.columns)).show()

在计算每列缺失值的数量时,这非常有效。但是,我不确定如何修改它来计算每年的缺失值。

任何正确方向的指示将不胜感激。

最佳答案

您可以使用相同的逻辑并添加groupby。请注意,我还从聚合列中删除​​了“年份”,但这是可选的(您将获得两个“年份”列)。

columns = filter(lambda x: x != "year", df.columns)
df.groupBy("year")\
.agg(*(sum(col(c).isNull().cast("int")).alias(c) for c in columns))\
.show()

关于python - PySpark Dataframe Groupby 和计算空值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55265954/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com