gpt4 book ai didi

apache-spark - Spark : How to group by distinct values in DataFrame

转载 作者:行者123 更新时间:2023-12-04 05:11:04 25 4
gpt4 key购买 nike

我在文件中有以下格式的数据:

1,32    
1,33
1,44
2,21
2,56
1,23

我正在执行的代码如下:

val sqlContext = new org.apache.spark.sql.SQLContext(sc) 

import spark.implicits._
import sqlContext.implicits._

case class Person(a: Int, b: Int)

val ppl = sc.textFile("newfile.txt").map(_.split(","))
.map(p=> Person(p(0).trim.toInt, p(1).trim.toInt))
.toDF()
ppl.registerTempTable("people")

val result = ppl.select("a","b").groupBy('a).agg()
result.show

预期输出是:

a 32, 33, 44, 23

b 21, 56

而不是通过总和、计数、平均值等进行聚合。我想要行中的每个元素。

最佳答案

尝试在 agg() 中使用 collect_set 函数

val df = sc.parallelize(Seq(
(1,3), (1,6), (1,5), (2,1),(2,4)
(2,1))).toDF("a","b")

+---+---+
| a| b|
+---+---+
| 1| 3|
| 1| 6|
| 1| 5|
| 2| 1|
| 2| 4|
| 2| 1|
+---+---+

val df2 = df.groupBy("a").agg(collect_set("b")).show()

+---+--------------+
| a|collect_set(b)|
+---+--------------+
| 1| [3, 6, 5]|
| 2| [1, 4]|
+---+--------------+

如果你想要重复条目,可以使用collect_list

val df3 = df.groupBy("a").agg(collect_list("b")).show() 

+---+---------------+
| a|collect_list(b)|
+---+---------------+
| 1| [3, 6, 5]|
| 2| [1, 4, 1]|
+---+---------------+

关于apache-spark - Spark : How to group by distinct values in DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41569984/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com