gpt4 book ai didi

scala - 如何根据两列订购spark RDD

转载 作者:可可西里 更新时间:2023-11-01 16:29:28 25 4
gpt4 key购买 nike

我有以下 RDD 数据集:

ABC [G4, G3, G1]    3
FFF [G5, G4, G3] 3
CDE [G5,G4,G3,G2] 4
XYZ [G4, G3] 2

需要先按最后一列desc排序,如果最后一列相同,则按第一个元组项desc顺序排序。预期的结果是

CDE [G5,G4,G3,G2]   4
FFF [G5, G4, G3] 3
ABC [G4, G3, G1] 3
XYZ [G4, G3] 2

提前致谢。

最佳答案

您可以使用sortBy:

rdd.sortBy(r => (r._3, r._2(0)), false)

上面的r._3代表最后一列,r._2(0)代表第二列的第一个元素(是一个数组) , 而 false 指定顺序应该是降序的。请记住,由于混洗,排序是一项昂贵的操作。

更新

如果我们假设您从 pair rdd 开始,这是一个可重现的示例:

/// Generate data
val rdd = sc.parallelize(Seq(("ABC","G4"),("ABC","G3"),
("ABC","G1"),("FFF","G5"),
("FFF","G4"),("FFF","G3"),
("CDE","G5"),("CDE","G4"),
("CDE","G3"),("CDE","G2"),
("XYZ","G4"),("XYZ","G3")))

/// Put values in a list and calculate its size
val rdd_new = rdd.groupByKey.mapValues(_.toList).map(x => (x._1, x._2, x._2.size))

/// Now this works
rdd_new.sortBy(r => (r._3, r._2(0)), false).collect()
/// Array[(String, List[String], Int)] = Array((CDE,List(G5, G4, G3, G2),4), (FFF,List(G5, G4, G3),3), (ABC,List(G4, G3, G1),3), (XYZ,List(G4, G3),2))

关于scala - 如何根据两列订购spark RDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41678398/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com