gpt4 book ai didi

scala - Apache Spark Dataframe Groupby agg() 用于多列

转载 作者:行者123 更新时间:2023-12-04 00:59:54 26 4
gpt4 key购买 nike

我有一个 DataFrame有 3 列,即 Id, First Name, Last Name
我要申请 GroupBy基于Id并想收藏First Name, Last Name列作为列表。

示例:-我有一个这样的 DF

+---+-------+--------+
|id |fName |lName |
+---+-------+--------+
|1 |Akash |Sethi |
|2 |Kunal |Kapoor |
|3 |Rishabh|Verma |
|2 |Sonu |Mehrotra|
+---+-------+--------+

我想要这样的输出
+---+-------+--------+--------------------+
|id |fname |lName |
+---+-------+--------+--------------------+
|1 |[Akash] |[Sethi] |
|2 |[Kunal, Sonu] |[Kapoor, Mehrotra] |
|3 |[Rishabh] |[Verma] |
+---+-------+--------+--------------------+

提前致谢

最佳答案

您可以像这样聚合多个列:

df.groupBy("id").agg(collect_list("fName"), collect_list("lName"))

它会给你预期的结果。

关于scala - Apache Spark Dataframe Groupby agg() 用于多列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42850554/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com