gpt4 book ai didi

csv - 如何使用UTF-8编码解析CSV文件?

转载 作者:行者123 更新时间:2023-12-03 13:51:48 31 4
gpt4 key购买 nike

我使用Spark 2.1。

输入的csv文件包含unicode字符,如下所示

unicode-input-csv

解析此csv文件时,输出如下所示

unicode-output-csv

我使用MS Excel 2010查看文件。

使用的Java代码是

@Test
public void TestCSV() throws IOException {
String inputPath = "/user/jpattnaik/1945/unicode.csv";
String outputPath = "file:\\C:\\Users\\jpattnaik\\ubuntu-bkp\\backup\\bug-fixing\\1945\\output-csv";
getSparkSession()
.read()
.option("inferSchema", "true")
.option("header", "true")
.option("encoding", "UTF-8")
.csv(inputPath)
.write()
.option("header", "true")
.option("encoding", "UTF-8")
.mode(SaveMode.Overwrite)
.csv(outputPath);
}

如何获得与输入相同的输出?

最佳答案

我的猜测是输入文件不在UTF-8中,因此您得到了不正确的字符。

我的建议是编写一个纯Java应用程序(根本没有Spark),看看用UTF-8编码是否可以得到相同的结果。

关于csv - 如何使用UTF-8编码解析CSV文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44002651/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com