gpt4 book ai didi

azure - Databricks 包 com.databricks.spark.xml 存在编码问题

转载 作者:行者123 更新时间:2023-12-03 05:31:46 25 4
gpt4 key购买 nike

我正在处理一个编码问题,几乎可以通过数据帧中所需字段的解码/编码来解决,如下例所示:

df.withColumn("column1", 解码(encode("column1", "windows-1252"), "UTF8"))

从中获取值 enter image description hereenter image description here ,例如。

但是在某些特殊情况下,例如“Á”或“Í”,我无法得到预期的结果:

从此enter image description here对此enter image description here

有人处理同样的问题并使用其他解决方案获得良好的结果吗?

提前致谢!

最佳答案

我将编码更改为 iso-8859-15 解决了这个问题。并将数据的负载也修改为此编码类型,如下所示:

df = (
spark.read.format("com.databricks.spark.xml")
.option("encoding", "UTF-8")
.option("charset", "iso-8859-15")
.option("rowTag", "Header")
.load(folder_path)

关于azure - Databricks 包 com.databricks.spark.xml 存在编码问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64813397/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com