gpt4 book ai didi

scala - Spark-Scala 格式错误的行问题

转载 作者:行者123 更新时间:2023-12-02 01:12:54 26 4
gpt4 key购买 nike

我有一个 control-A 分隔文件,我正在尝试将其转换为 parquet 格式。但是在文件中有一个带有单个 "的字符串字段。

读取如下数据:

val dataframe = sparkSession.sqlContext.read
.format("com.databricks.spark.csv")
.option("delimiter", datasetDelimiter)
.option("header", "false")
.option("mode","FAILFAST")
//.option("mode", "DROPMALFORMED")
.option("treatEmptyValuesAsNulls","true")
.option("nullValue"," ")
.option("ignoreLeadingWhiteSpace", "true")
.option("ignoreTrailingWhiteSpace", "true")
.schema(schema)
.load(fileLocation)
dataframe

如您所见,数据中只有一个左双引号,没有右双引号。这导致 Malformed Line 异常。在阅读时,我明确提到分隔符为 U0001。有没有办法在不丢失任何数据的情况下将此类数据转换为 Parquet

最佳答案

您可以将 quote 选项设置为空字符串:

.option("quote", "") 
// or, equivalently, .option("quote", '\u0000')

这将告诉 Spark 将 " 视为任何其他非特殊字符。

(使用 Spark 2.1.0 测试)

关于scala - Spark-Scala 格式错误的行问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44188079/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com