gpt4 book ai didi

scala - 我可以从 Zeppelin 上的 scala Spark 窗口的单独文件中自动加载 csv header 吗?

转载 作者:行者123 更新时间:2023-12-02 20:56:28 27 4
gpt4 key购买 nike

我有一个数据源,它存储为大量 gzip 压缩的 csv 文件。该源的 header 信息是一个单独的文件。

我想将此数据加载到 Spark 中进行操作 - 有没有一种简单的方法可以让 Spark 找出架构/加载 header ?实际上有数百列,它们可能在运行之间发生变化,强烈不希望手动执行此操作

最佳答案

这可以在 Spark 中轻松完成:如果您的头文件是: headers.csv 并且它仅包含 header ,那么只需首先加载此文件并将 header 设置为 true :

val headerCSV  = spark.read.format("CSV").option("header","true").load("/home/shivansh/Desktop/header.csv")

然后以数组的形式取出Columns:

val columns = headerCSV.columns

然后读取另一个不带头信息的文件并将该文件作为头传递:

spark.read.format("CSV").load("/home/shivansh/Desktop/fileWithoutHeader.csv").toDF(columns:_*)

这将产生具有组合值的 DF!

关于scala - 我可以从 Zeppelin 上的 scala Spark 窗口的单独文件中自动加载 csv header 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40162498/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com