gpt4 book ai didi

apache-spark - Spark-Csv 写引用模式不起作用

转载 作者:行者123 更新时间:2023-12-04 10:23:51 25 4
gpt4 key购买 nike

我正在尝试使用 Spark-CSV ( https://github.com/databricks/spark-csv ) 将 DataFrame 编写为 CSV 文件

我正在使用下面的命令

res1.write.option("quoteMode", "NONE").format("com.databricks.spark.csv").save("File")

但我的 CSV 文件总是写成

“伦敦”
“哥本哈根”
“莫斯科”

代替

伦敦
哥本哈根
莫斯科

最佳答案

是的。使用反斜杠字符(\)关闭双引号字符(")默认转义的方法,必须在.write()方法调用后添加一个.option()方法调用,参数恰到好处。目标option() 方法调用是改变 csv() 方法“查找”“quote”字符实例的方式。要做到这一点,您必须更改“quote”实际含义的默认值;即更改查找的字符从双引号字符 (") 到 Unicode "\u0000"字符(本质上提供了 Unicode NUL character,它永远不会出现在格式良好的 JSON 文档中)。

val dataFrame =
spark.sql("SELECT * FROM some_table_with_a_json_column")
val unitEmitCsv =
dataframe
.write
.option("header", true)
.option("delimiter", "\t")
.option("quote", "\u0000") //magic is happening here
.csv("/FileStore/temp.tsv")

这只是我在尝试使用 Apache Spark 并发出 .csv 文件时学到的几个教训之一。有关更多信息和上下文,请参阅我写的标题为“ Example Apache Spark ETL Pipeline Integrating a SaaS”的博客文章。

关于apache-spark - Spark-Csv 写引用模式不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39306070/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com