gpt4 book ai didi

apache-spark - spark 读取非 UTF-8 编码的 wholeTextFiles

转载 作者:行者123 更新时间:2023-12-05 08:42:13 28 4
gpt4 key购买 nike

我想通过以下方式读取非 UTF-8 编码的整个文本文件

val df = spark.sparkContext.wholeTextFiles(path, 12).toDF

进入 Spark 。如何更改编码?我想阅读 ISO-8859 编码的文本,但它不是 CSV,它类似于 xml:SGML。

编辑

也许应该使用自定义的 Hadoop 文件输入格式?

最佳答案

您可以改为使用 SparkContext.binaryFiles() 读取文件,并为指定您需要的字符集的内容构建 String。例如:

val df = spark.sparkContext.binaryFiles(path, 12)
.mapValues(content => new String(content.toArray(), StandardCharsets.ISO_8859_1))
.toDF

关于apache-spark - spark 读取非 UTF-8 编码的 wholeTextFiles,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43200978/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com