gpt4 book ai didi

python - 如何计算 pyspark 数据框中某个键的出现次数 (2.1.0)

转载 作者:行者123 更新时间:2023-12-04 13:08:21 24 4
gpt4 key购买 nike

上下文

假设我有以下数据框:

col1 | col2 | col3
a | toto | 1
a | toto | 2
a | toto | 45
a | toto | 789
a | toto | 456
b | titi | 4
b | titi | 8

col1为主键。

我想知道如何确定 col1 中的哪个键在数据帧中出现次数少于 5 次。

所以输出应该是:

col1 | col2 | col3
b | titi |

到目前为止,我想出了以下解决方案:

anc_ref_window = Window.partitionBy("col1")
df\
.withColumn("temp_one", lit(1)) \
.withColumn("count", sum(col("temp_one")).over(anc_ref_window)) \
.drop("temp_one") \
.filter(col("count") < 5) \
.drop("count") \
.show()

结果如下:

col1 | col2 | col3
b | titi | 4
b | titi | 8

问题

1 - 这是解决问题的正确方法吗?

2 - 我怎样才能只获得预期的输出?对于我的 pyspark (2.1.0) 版本,似乎没有像 select distinct col1,col2 这样的机制,就像我通过 Impala 所做的那样(例如)。

编辑:

col3 中的输出值对我来说无关紧要。

最佳答案

另一种方法:

df_lessthan5 = df.groupBy(col("col1")).count() \
.filter(col("count") < 5) \
.drop(col("count"))

df_distinct = df.drop(col("col3")).distinct()

result = df_distinct.join(df_lessthan5, ['col1'], 'inner')

结果:

result.show()
+----+----+
|col1|col2|
+----+----+
| b|titi|
+----+----+

与窗口操作相比,性能明智:

如果您确定您的窗口列 (col1) 没有高度偏斜,那么它会稍微好一些或与此 GroupBy 解决方案相当。

但如果您的 col1 是高度倾斜的,那么它将无法正确并行化,并且 1 个任务必须完成所有主要操作。在这种情况下,您应该选择 groupBy + join

关于python - 如何计算 pyspark 数据框中某个键的出现次数 (2.1.0),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68303077/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com