gpt4 book ai didi

apache-spark - Spark DataFrame 通过 GroupBy 删除重复项先保留

转载 作者:行者123 更新时间:2023-12-02 15:19:23 24 4
gpt4 key购买 nike

我正在使用 groupBy 函数从 spark DataFrame 中删除重复项。对于每个组,我只想取第一行,这将是最新的。

我不想执行 max() 聚合,因为我知道结果已经存储在 Cassandra 中并希望避免不必要的计算。参见 this approach使用 pandas,这正是我在 Spark 中所追求的。

df = sqlContext.read\
.format("org.apache.spark.sql.cassandra")\
.options(table="table", keyspace="keyspace")\
.load()\
.groupBy("key")\
#what goes here?

最佳答案

只需 dropDuplicates 即可完成这项工作。

尝试df.dropDuplicates(Seq("column")).show

检查这个question了解更多详情。

关于apache-spark - Spark DataFrame 通过 GroupBy 删除重复项先保留,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38469921/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com