gpt4 book ai didi

count - pyspark 根据条件计算行数

转载 作者:行者123 更新时间:2023-12-02 03:13:21 33 4
gpt4 key购买 nike

我有一个数据框

test = spark.createDataFrame([('bn', 12452, 221), ('mb', 14521, 330),('bn',2,220),('mb',14520,331)],['x','y','z'])
test.show()

我需要根据条件计算行数:

test.groupBy("x").agg(count(col("y")>12453),count(col("z")>230)).show()

这给出了

 +---+------------------+----------------+
| x|count((y > 12453))|count((z > 230))|
+---+------------------+----------------+
| bn| 2| 2|
| mb| 2| 2|
+---+------------------+----------------+

这只是行数,而不是某些条件下的行数。

最佳答案

count 不会对 True 求和,它只计算非空值的数量。要计算 True 值,您需要将条件转换为 1/0,然后求和:

import pyspark.sql.functions as F

cnt_cond = lambda cond: F.sum(F.when(cond, 1).otherwise(0))
test.groupBy('x').agg(
cnt_cond(F.col('y') > 12453).alias('y_cnt'),
cnt_cond(F.col('z') > 230).alias('z_cnt')
).show()
+---+-----+-----+
| x|y_cnt|z_cnt|
+---+-----+-----+
| bn| 0| 0|
| mb| 2| 2|
+---+-----+-----+

关于count - pyspark 根据条件计算行数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49021972/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com