gpt4 book ai didi

apache-spark - Spark - 用引号读取 csv 文件

转载 作者:行者123 更新时间:2023-12-05 00:15:09 33 4
gpt4 key购买 nike

我有一个 CSV 文件,其中包含双引号 (") 中的数据。

"0001", "A", "001", "2017/01/01 12"

"0001", "B", "002", "2017/01/01 13"



我只想读取纯数据(没有 "符号)。
spark.read
.option("encoding", encoding)
.option("header", header)
.option("quote", quote)
.option("sep", sep)

其他选项运行良好,但只有引用似乎不能正常工作。它加载了引号 (")。我应该如何从加载的数据中去掉这个符号。

dataframe.show 结果
+----+----+------+---------------+
| _c0| _c1| _c2| _c3|
+----+----+------+---------------+
|0001| "A"| "001"| "2017/01/01 12"|
|0001| "B"| "002"| "2017/01/01 13"|
+----+----+------+---------------+

最佳答案

您可以使用如下选项报价

option("quote", "\"")

如果你的两个数据之间有一个额外的空格作为“abc”,“xyz”,那么你需要使用
option("ignoreLeadingWhiteSpace", true)
希望这可以帮助

关于apache-spark - Spark - 用引号读取 csv 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45274559/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com