gpt4 book ai didi

scala - 在 Spark 中重新分组/连接 DataFrame 行

转载 作者:行者123 更新时间:2023-12-02 17:47:16 24 4
gpt4 key购买 nike

我有一个如下所示的 DataFrame:

scala> data.show
+-----+---+---------+
|label| id| features|
+-----+---+---------+
| 1.0| 1|[1.0,2.0]|
| 0.0| 2|[5.0,6.0]|
| 1.0| 1|[3.0,4.0]|
| 0.0| 2|[7.0,8.0]|
+-----+---+---------+

我想根据“id”重新组合功能,这样我可以获得以下内容:

scala> data.show
+---------+---+-----------------+
| label| id| features |
+---------+---+-----------------+
| 1.0,1.0| 1|[1.0,2.0,3.0,4.0]|
| 0.0,0.0| 2|[5.0,6.0,7.8,8.0]|
+---------+---+-----------------+

这是我用来生成上述 DataFrame 的代码

val rdd = sc.parallelize(List((1.0, 1, Vectors.dense(1.0, 2.0)), (0.0, 2, Vectors.dense(5.0, 6.0)), (1.0, 1, Vectors.dense(3.0, 4.0)), (0.0, 2, Vectors.dense(7.0, 8.0))))
val data = rdd.toDF("label", "id", "features")

我一直在使用 RDD 和 DataFrame 尝试不同的事情。迄今为止最“有前途”的方法是根据“id”进行过滤

data.filter($"id".equalTo(1))

+-----+---+---------+
|label| id| features|
+-----+---+---------+
| 1.0| 1|[1.0,2.0]|
| 1.0| 1|[3.0,4.0]|
+-----+---+---------+

但我现在有两个瓶颈:

1) 如何自动过滤“id”可能具有的所有不同值?

以下会产生错误:

data.select("id").distinct.foreach(x => data.filter($"id".equalTo(x)))

2) 如何将常见的“特征”连接到给定的“id”。没有尝试太多,因为我仍然停留在 1)

欢迎任何建议

注意:为了澄清,每次出现“id”时,“label”始终相同。抱歉造成混淆,我的任务的一个简单扩展也是对“标签”进行分组(更新的示例)

最佳答案

我相信没有有效的方法来实现您想要的,并且额外的订单要求并不会让情况变得更好。我能想到的最干净的方法是像这样的groupByKey:

import org.apache.spark.mllib.linalg.{Vectors, Vector}
import org.apache.spark.sql.functions.monotonicallyIncreasingId
import org.apache.spark.sql.Row
import org.apache.spark.rdd.RDD


val pairs: RDD[((Double, Int), (Long, Vector))] = data
// Add row identifiers so we can keep desired order
.withColumn("uid", monotonicallyIncreasingId)
// Create PairwiseRDD where (label, id) is a key
// and (row-id, vector is a value)
.map{case Row(label: Double, id: Int, v: Vector, uid: Long) =>
((label, id), (uid, v))}

val rows = pairs.groupByKey.mapValues(xs => {
val vs = xs
.toArray
.sortBy(_._1) // Sort by row id to keep order
.flatMap(_._2.toDense.values) // flatmap vector values

Vectors.dense(vs) // return concatenated vectors

}).map{case ((label, id), v) => (label, id, v)} // Reshape

val grouped = rows.toDF("label", "id", "features")

grouped.show

// +-----+---+-----------------+
// |label| id| features|
// +-----+---+-----------------+
// | 0.0| 2|[5.0,6.0,7.0,8.0]|
// | 1.0| 1|[1.0,2.0,3.0,4.0]|
// +-----+---+-----------------+

也可以使用类似于我为 SPARK SQL replacement for mysql GROUP_CONCAT aggregate function 提议的 UDAF但效率比这还要低。

关于scala - 在 Spark 中重新分组/连接 DataFrame 行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33925516/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com