gpt4 book ai didi

mysql - 如何从 apache-spark 中的数据帧列中的重复值中仅选择第一行?

转载 作者:行者123 更新时间:2023-11-29 18:08:47 25 4
gpt4 key购买 nike

考虑一下我确实有包含以下数据的dataframe

val seq = Seq((1, "John"), (1, "John"), (2, "Michael"), (3, "Sham"),(4, "Dan"), (2, "Michael"), (4, "Dan"))

val rdd = sc.parallelize(seq)

val df = rdd.toDF("id","name")

我想要输出为:

1, "John"

2, "Michael"

3, "Sham"

4, "Dan"

如何从数据集选择,其中id和name列都允许重复 >.

最佳答案

您可以在数据框/数据集上使用 dropDuplicates()。

关于mysql - 如何从 apache-spark 中的数据帧列中的重复值中仅选择第一行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47581001/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com