作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 groupBy
函数从 spark DataFrame 中删除重复项。对于每个组,我只想取第一行,这将是最新的。
我不想执行 max()
聚合,因为我知道结果已经存储在 Cassandra 中并希望避免不必要的计算。参见 this approach使用 pandas,这正是我在 Spark 中所追求的。
df = sqlContext.read\
.format("org.apache.spark.sql.cassandra")\
.options(table="table", keyspace="keyspace")\
.load()\
.groupBy("key")\
#what goes here?
最佳答案
关于apache-spark - Spark DataFrame 通过 GroupBy 删除重复项先保留,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38469921/
我是一名优秀的程序员,十分优秀!