gpt4 book ai didi

scala - Spark : Convert column of string to an array

转载 作者:行者123 更新时间:2023-12-02 04:45:35 25 4
gpt4 key购买 nike

如何将已读取为字符串的列转换为数组列?即从下面的模式转换

scala> test.printSchema
root
|-- a: long (nullable = true)
|-- b: string (nullable = true)

+---+---+
| a| b|
+---+---+
| 1|2,3|
+---+---+
| 2|4,5|
+---+---+

致:

scala> test1.printSchema
root
|-- a: long (nullable = true)
|-- b: array (nullable = true)
| |-- element: long (containsNull = true)

+---+-----+
| a| b |
+---+-----+
| 1|[2,3]|
+---+-----+
| 2|[4,5]|
+---+-----+

如果可能,请分享 scala 和 python 实现。相关说明,在读取文件本身时如何处理它?我有大约 450 列的数据,其中很少有我想以这种格式指定的。目前我正在 pyspark 中阅读如下:

df = spark.read.format('com.databricks.spark.csv').options(
header='true', inferschema='true', delimiter='|').load(input_file)

谢谢。

最佳答案

有多种方法,

最好的方法是使用 split函数并转换为 array<long>

data.withColumn("b", split(col("b"), ",").cast("array<long>"))

您还可以创建简单的 udf 来转换值

val tolong = udf((value : String) => value.split(",").map(_.toLong))

data.withColumn("newB", tolong(data("b"))).show

希望这有帮助!

关于scala - Spark : Convert column of string to an array,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44690174/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com