gpt4 book ai didi

Scala Spark - 将向量列拆分为 Spark DataFrame 中的单独列

转载 作者:行者123 更新时间:2023-12-02 02:52:59 25 4
gpt4 key购买 nike

我有一个 Spark DataFrame,其中有一列包含向量值。向量值都是 n 维的,即具有相同的长度。我还有一个列名列表 Array("f1", "f2", "f3", ..., "fn"),每个列名对应于向量中的一个元素。

some_columns... | Features
... | [0,1,0,..., 0]

to

some_columns... | f1 | f2 | f3 | ... | fn

... | 0 | 1 | 0 | ... | 0

实现这一目标的最佳方法是什么?我想到了一种方法,即使用 createDataFrame(Row(Features), featureNameList) 创建一个新的 DataFrame,然后与旧的 DataFrame 连接,但它需要 Spark 上下文才能使用 createDataFrame。我只想转换现有的数据框。我也知道 .withColumn("fi", value) 但如果 n 很大怎么办?

我是 Scala 和 Spark 的新手,找不到任何好的示例。我认为这可能是一项常见任务。我的特殊情况是,我使用了 CountVectorizer 并希望单独恢复每一列以获得更好的可读性,而不是仅获得向量结果。

最佳答案

一种方法可能是转换 vector列到array<double>然后使用 getItem提取单个元素。

import org.apache.spark.sql.functions._
import org.apache.spark.ml._

val df = Seq( (1 , linalg.Vectors.dense(1,0,1,1,0) ) ).toDF("id", "features")
//df: org.apache.spark.sql.DataFrame = [id: int, features: vector]

df.show
//+---+---------------------+
//|id |features |
//+---+---------------------+
//|1 |[1.0,0.0,1.0,1.0,0.0]|
//+---+---------------------+

// A UDF to convert VectorUDT to ArrayType
val vecToArray = udf( (xs: linalg.Vector) => xs.toArray )

// Add a ArrayType Column
val dfArr = df.withColumn("featuresArr" , vecToArray($"features") )

// Array of element names that need to be fetched
// ArrayIndexOutOfBounds is not checked.
// sizeof `elements` should be equal to the number of entries in column `features`
val elements = Array("f1", "f2", "f3", "f4", "f5")

// Create a SQL-like expression using the array
val sqlExpr = elements.zipWithIndex.map{ case (alias, idx) => col("featuresArr").getItem(idx).as(alias) }

// Extract Elements from dfArr
dfArr.select(sqlExpr : _*).show
//+---+---+---+---+---+
//| f1| f2| f3| f4| f5|
//+---+---+---+---+---+
//|1.0|0.0|1.0|1.0|0.0|
//+---+---+---+---+---+

关于Scala Spark - 将向量列拆分为 Spark DataFrame 中的单独列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49911608/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com