gpt4 book ai didi

scala - 无法使用scala在spark中使用groupByKey对2个值执行聚合

转载 作者:行者123 更新时间:2023-12-01 13:18:36 25 4
gpt4 key购买 nike

这个问题是关于使用 scala 在 spark 中使用 groupByKey() 的。

考虑以下数据

Name,marks,value
Chris,30,1
Chris,35,1
Robert,12,1
Robert,20,1

在rdd下创建

val dataRDD = sc.parallelize(List(("Chris",30,1),("Chris",35,1),("Robert",12,1),("Robert",20,1)))

我正在尝试创建这样的键值对

val kvRDD = dataRDD.map(rec=> (rec._1, (rec._2,rec._3)))

现在我想要两个值的总和。

val sumRDD = kvRDD.groupByKey().map(rec => (rec._1,(rec._2._1.sum, rec._2._2.sum)))

但是,我遇到了以下错误。

<console>:28: error: value _2 is not a member of Iterable[(Int, Int)]

我们不能使用 groupByKey 实现要求吗?

最佳答案

我建议使用更高效的 reduceByKey 而不是 groupByKey:

val dataRDD = sc.parallelize(Seq(
("Chris",30,1), ("Chris",35,1), ("Robert",12,1), ("Robert",20,1)
))

val kvRDD = dataRDD.map(rec => (rec._1, (rec._2, rec._3)))

val sumRDD = kvRDD.reduceByKey{ (acc, t) =>
(acc._1 + t._1, acc._2 + t._2)
}

sumRDD.collect
// res1: Array[(String, (Int, Int))] = Array((Robert,(32,2)), (Chris,(65,2)))

关于scala - 无法使用scala在spark中使用groupByKey对2个值执行聚合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52237329/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com