gpt4 book ai didi

scala - 使用 Scala API 将 TSV 读入 Spark Dataframe

转载 作者:行者123 更新时间:2023-12-03 11:45:59 25 4
gpt4 key购买 nike

我一直在尝试使用 databricks 库来读取 CSV 文件。我正在尝试使用 scala api 将 hive 创建的 TSV 读入 spark 数据帧。

这是一个可以在 spark shell 中运行的示例(我公开了示例数据,以便它可以为您工作)

import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType};

val sqlContext = new SQLContext(sc)
val segments = sqlContext.read.format("com.databricks.spark.csv").load("s3n://michaeldiscenza/data/test_segments")

documentation说您可以指定分隔符,但我不清楚如何指定该选项。

最佳答案

所有选项参数都在 option() 中传递功能如下:

val segments = sqlContext.read.format("com.databricks.spark.csv")
.option("delimiter", "\t")
.load("s3n://michaeldiscenza/data/test_segments")

关于scala - 使用 Scala API 将 TSV 读入 Spark Dataframe,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33898040/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com