gpt4 book ai didi

java - 使用 Apache Spark (Java) 将 CSV 数据加载到 Dataframe 并转换为 Array

转载 作者:行者123 更新时间:2023-11-30 06:46:21 26 4
gpt4 key购买 nike

我有一个包含以下数据的 CSV 文件:

1,2,5  
2,4
2,3

我想将它们加载到具有数组字符串模式的 Dataframe 中

输出应该如下所示。

[1, 2, 5]  
[2, 4]
[2, 3]

这已在此处使用 scala 得到解答: Spark: Convert column of string to an array

我想用 Java 实现它。
请帮忙

最佳答案

以下是 Java 中的示例代码。您需要使用 spark.read().text(String path) 方法读取文件,然后调用 split 函数。

import static org.apache.spark.sql.functions.split;

public class SparkSample {
public static void main(String[] args) {
SparkSession spark = SparkSession
.builder()
.appName("SparkSample")
.master("local[*]")
.getOrCreate();
//Read file
Dataset<Row> ds = spark.read().text("c://tmp//sample.csv").toDF("value");
ds.show(false);
Dataset<Row> ds1 = ds.select(split(ds.col("value"), ",")).toDF("new_value");
ds1.show(false);
ds1.printSchema();
}
}

关于java - 使用 Apache Spark (Java) 将 CSV 数据加载到 Dataframe 并转换为 Array,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47687194/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com