gpt4 book ai didi

apache-spark - Apache Spark Dataframe - 从 CSV 文件的第 n 行加载数据

转载 作者:行者123 更新时间:2023-12-02 20:48:59 25 4
gpt4 key购买 nike

我想处理一个巨大的订单 CSV 文件 (5GB),在文件开头包含一些元数据行。标题列在第 4 行(以“h,”开头)中表示,后跟另一个元数据行,描述可选性。数据行以“d”开头

m,Version,v1.0
m,Type,xx
m,<OtherMetaData>,<...>
h,Col1,Col2,Col3,Col4,Col5,.............,Col100
m,Mandatory,Optional,Optional,...........,Mandatory
d,Val1,Val2,Val3,Val4,Val5,.............,Val100

加载文件时是否可以跳过指定的行数并对数据集使用“inferSchema”选项?

Dataset<Row> df = spark.read()
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("\home\user\data\20170326.csv");

或者我是否需要定义两个不同的数据集并使用“except(Dataset other)”来排除要忽略行的数据集?

最佳答案

您可以尝试设置"comment"选项 "m" ,有效地告诉 csv 阅读器跳过以 "m" 开头的行性格。

df = spark.read()
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.option("comment", "m")
.load("\home\user\data\20170326.csv")

关于apache-spark - Apache Spark Dataframe - 从 CSV 文件的第 n 行加载数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43029020/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com