gpt4 book ai didi

scala - 如何在 Spark 中跳过 CSV 文件的 header ?

转载 作者:行者123 更新时间:2023-12-03 05:28:00 26 4
gpt4 key购买 nike

假设我为 Spark 上下文提供了三个文件路径以供读取,并且每个文件的第一行都有一个架构。我们如何跳过标题中的架构行?

val rdd=sc.textFile("file1,file2,file3")

现在,我们如何跳过这个 rdd 中的标题行?

最佳答案

data = sc.textFile('path_to_data')
header = data.first() #extract header
data = data.filter(row => row != header) #filter out header

关于scala - 如何在 Spark 中跳过 CSV 文件的 header ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27854919/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com