gpt4 book ai didi

csv - 如何从 RDD = sc.textFile ("s3n://bucket/*.csv") 中的所有文件中剥离标题?

转载 作者:行者123 更新时间:2023-12-04 21:53:43 24 4
gpt4 key购买 nike

我试图想出最好的方法来做到这一点,但是,我想不出一种方法不包括将所有文件的 header 读入数组,然后从这些 header 中过滤 RDD。

有没有更简单的方法?

注意:我正在从 S3 存储桶读取所有 csv 文件,所有这些文件都有不同的 header 。

最佳答案

一种选择是使用 SparkSQL,它可以加载 CSV,并带有忽略标题的选项。看一看: https://github.com/databricks/spark-csv

header: when set to true the first line of files will be used to name columns and will not be included in data. All types will be assumed string. Default value is false.

关于csv - 如何从 RDD = sc.textFile ("s3n://bucket/*.csv") 中的所有文件中剥离标题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29420071/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com