gpt4 book ai didi

python-3.x - 在pyspark中使用换行符读取CSV

转载 作者:行者123 更新时间:2023-12-04 21:05:46 27 4
gpt4 key购买 nike

在pyspark中使用换行符读取CSV
我想用 pyspark 读取一个“合法的”(它跟在 RFC4180 后面)CSV,它在某些行中有断线(CRLF)。下一个代码示例显示了使用 Notepad++ 打开它时的效果:

enter image description here

我试着用 阅读它sqlCtx.read.load 使用 格式='com.databricks.spark.csv。 在这些特定情况下,生成的数据集显示两行而不是一行。我使用的是 Spark 2.1.0.2 版本。

是否有任何命令或替代方法可以读取 csv 允许我仅将这两行作为一行读取?

最佳答案

您可以使用“csv”而不是 Databricks CSV - 最后一个现在重定向到默认的 Spark 阅读器。但是,这只是一个提示:)

在 Spark 2.2 中添加了新选项 - wholeFile .如果你这样写:

spark.read.option("wholeFile", "true").csv("file.csv")

它将读取所有文件并处理多行 CSV。

Spark 2.1 中没有这样的选项。您可以使用 sparkContext.wholeTextFile 读取文件或者只是使用较新的版本

关于python-3.x - 在pyspark中使用换行符读取CSV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46219576/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com