gpt4 book ai didi

java - spark 数据集分组和求和

转载 作者:行者123 更新时间:2023-11-30 10:28:21 25 4
gpt4 key购买 nike

我使用 Spark 1.6.1 和 Java 作为编程语言。以下代码在 dataframes 上运行良好:

simpleProf.groupBy(col("col1"), col("col2") )
.agg(
sum("CURRENT_MONTH"),
sum("PREVIOUS_MONTH")
);

但是,它不使用数据集,知道如何在 Java/Spark 中对数据集做同样的事情吗?

干杯

最佳答案

It does not work, in the sense that after the groupBy I get a GroupedDataset object and when I try to apply the function agg it requires typedColumn instead of column.

啊,因为在 Spark 2.x 中合并了 Dataset 和 DataFrame,所以对此有些困惑,其中有一个 groupBy 与关系列一起使用,而 groupByKey 适用于类型化的列。因此,假设您在 1.6 中使用显式数据集,那么解决方案是通过 .as 方法对您的列进行典型化。

sum("CURRENT_MONTH").as[Int]

关于java - spark 数据集分组和求和,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44681510/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com