gpt4 book ai didi

scala - 使用 Scala 将 DataFrame 单行转置为 Spark 中的列

转载 作者:行者123 更新时间:2023-12-02 16:42:02 25 4
gpt4 key购买 nike

我在这里看到了这个问题: Transpose DataFrame Without Aggregation in Spark with scala而我想做的恰恰相反。

我的数据框只有一行,值为字符串、整数、 bool 值、数组:

+-----+-------+-----+------+-----+
|col1 | col2 |col3 | col4 |col5 |
+-----+-------+-----+------+-----+
|val1 | val2 |val3 | val4 |val5 |
+-----+-------+-----+------+-----+

我想像这样转置它:

+-----------+-------+
|Columns | values|
+-----------+-------+
|col1 | val1 |
|col2 | val2 |
|col3 | val3 |
|col4 | val4 |
|col5 | val5 |
+-----------+-------+

我正在使用 Apache Spark 2.4.3 和 Scala 2.11

编辑:值可以是任何类型(int、double、bool、array),而不仅仅是字符串。

最佳答案

不使用 arrays_zip(在 => Spark 2.4 中可用)的不同想法并得到以下...

它将以更简单的方式(flatmapmapexplode 函数)在 Spark =>2.0 之后工作)...

此处 map 函数(与列一起使用)创建了一个新的映射列。输入列必须分组为键值对。

案例:数据中的字符串数据类型:

import org.apache.spark.sql.functions._

val df: DataFrame =Seq((("val1"),("val2"),("val3"),("val4"),("val5"))).toDF("col1","col2","col3","col4","col5")

var columnsAndValues = df.columns.flatMap { c => Array(lit(c), col(c)) }
df.printSchema()

df.withColumn("myMap", map(columnsAndValues:_*)).select(explode($"myMap"))
.toDF("Columns","Values").show(false)

结果:

root
|-- col1: string (nullable = true)
|-- col2: string (nullable = true)
|-- col3: string (nullable = true)
|-- col4: string (nullable = true)
|-- col5: string (nullable = true)

+-------+------+
|Columns|Values|
+-------+------+
|col1 |val1 |
|col2 |val2 |
|col3 |val3 |
|col4 |val4 |
|col5 |val5 |
+-------+------+

案例:数据中混合数据类型:

如果您有不同的类型,将它们转换为字符串...剩下的步骤不会改变..

val df1 = df.select(df.columns.map(c => col(c).cast(StringType)): _*)

完整示例:

import org.apache.spark.sql.functions._
import spark.implicits._
import org.apache.spark.sql.Column

val df = Seq(((2), (3), (true), (2.4), ("val"))).toDF("col1", "col2", "col3", "col4", "col5")
df.printSchema()
/**
* convert all columns to to string type since its needed further
*/
val df1 = df.select(df.columns.map(c => col(c).cast(StringType)): _*)
df1.printSchema()
var ColumnsAndValues: Array[Column] = df.columns.flatMap { c => {
Array(lit(c), col(c))
}
}

df1.withColumn("myMap", map(ColumnsAndValues: _*))
.select(explode($"myMap"))
.toDF("Columns", "Values")
.show(false)

结果:

root
|-- col1: integer (nullable = false)
|-- col2: integer (nullable = false)
|-- col3: boolean (nullable = false)
|-- col4: double (nullable = false)
|-- col5: string (nullable = true)

root
|-- col1: string (nullable = false)
|-- col2: string (nullable = false)
|-- col3: string (nullable = false)
|-- col4: string (nullable = false)
|-- col5: string (nullable = true)

+-------+------+
|Columns|Values|
+-------+------+
|col1 |2 |
|col2 |3 |
|col3 |true |
|col4 |2.4 |
|col5 |val |
+-------+------+

关于scala - 使用 Scala 将 DataFrame 单行转置为 Spark 中的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61469585/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com