apache-spark - Spark DataFrame 通过 GroupBy 删除重复项先保留-6ren

apache-spark - Spark DataFrame 通过 GroupBy 删除重复项先保留

转载作者：行者123 更新时间：2023-12-02 15:19:23

我正在使用 groupBy 函数从 spark DataFrame 中删除重复项。对于每个组，我只想取第一行，这将是最新的。

我不想执行 max() 聚合，因为我知道结果已经存储在 Cassandra 中并希望避免不必要的计算。参见 this approach使用 pandas，这正是我在 Spark 中所追求的。

df = sqlContext.read\
            .format("org.apache.spark.sql.cassandra")\
            .options(table="table", keyspace="keyspace")\
            .load()\
            .groupBy("key")\
            #what goes here?

最佳答案

只需 dropDuplicates 即可完成这项工作。

尝试df.dropDuplicates(Seq("column")).show。

检查这个question了解更多详情。

关于apache-spark - Spark DataFrame 通过 GroupBy 删除重复项先保留，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38469921/

文章推荐： javascript - javascript 中的无限引用是否存在任何问题(示例)

文章推荐： node.js - CSRF 和 Multer - 无效的 CSRF token 错误

文章推荐： hibernate - Grails 3刷新 hibernate session 导致NullPointerException

文章推荐： R:将过滤条件列表传递到数据框中

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

apache-spark - Spark DataFrame 通过 GroupBy 删除重复项先保留