gpt4 book ai didi

csv - 自定义分隔符 csv 阅读器 Spark

转载 作者:行者123 更新时间:2023-12-02 12:16:29 25 4
gpt4 key购买 nike

我想使用 Apache Spark 读入具有以下结构的文件。

628344092\t20070220\t200702\t2007\t2007.1370

分隔符是\t。如何在使用spark.read.csv()时实现这个?

csv 太大,无法使用 pandas,因为读取该文件需要很长时间。有没有类似于

的方法
pandas.read_csv(file, sep = '\t')

非常感谢!

最佳答案

使用 spark.read.option("delimiter", "\t").csv(file)sep 而不是 delimiter .

如果它是字面意思 \t,而不是制表符特殊字符,请使用双 \: spark.read.option("delimiter", "\\t").csv(文件)

关于csv - 自定义分隔符 csv 阅读器 Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46349748/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com