gpt4 book ai didi

pyspark - 如何在pyspark数据框中查找重复的列值

转载 作者:行者123 更新时间:2023-12-04 12:17:13 26 4
gpt4 key购买 nike

我正在尝试从 pyspark 的数据框中找到重复的列值。

例如,我有一个单列“A”的数据框,其值如下所示:

==
A
==
1
1
2
3
4
5
5

我期待如下输出(我只需要重复值)
==
A
==
1
5

最佳答案

与@Yuva 相同的答案,但使用内置函数:

df = sqlContext.createDataFrame([(1,),(1,),(2,),(3,),(4,),(5,),(5,)],('A',))

df.groupBy("A").count().where("count > 1").drop("count").show()

+---+
| A|
+---+
| 5|
| 1|
+---+

关于pyspark - 如何在pyspark数据框中查找重复的列值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57672258/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com