gpt4 book ai didi

scala - 如何在 spark-xml 中禁用科学记数法

转载 作者:行者123 更新时间:2023-12-04 18:36:24 29 4
gpt4 key购买 nike

如何在使用 databrick spark-xml 库读取 xml 文件时禁用科学记数法。这是场景,我的 XML 文件包含带有空格的数值

<V1>42451267 </V1>

我得到的是 4.2451267E7 而不是 42451267

我该如何解决

我的代码和xml文件如下

val xmlLocation = "sampleFile/xml/sample.xml"
val rootTag = "RTS"
val rowTag = "COLUMNTYPE"
val sqlContext = MySparkDriver.getSqlContext().
read.format("com.databricks.spark.xml")
if (rootTag != null && rootTag.size == 0)
sqlContext.option("rootTag", rootTag)
sqlContext.option("rowTag", rowTag)
val xmlDF = sqlContext.load(xmlLocation)
xmlDF.show(false)

输出

[WrappedArray(4232323.0, 4.2451267E7),21-11-2000 01:04:34,NTS,212212112,100.0,100.0]

预期

[WrappedArray(4232323, 42451267),21-11-2000 01:04:34,NTS,212212112,100.0000,100.0000]

XML文件

<RTS>
<COLUMNTYPE>
<D1>
<V1>4232323</V1>
<V1>42451267 </V1>
<V2>21-11-2000 01:04:34</V2>
<V3>NTS</V3>
<V4>212212112</V4>
<V7>100.0000</V7>
<V8>100.0000 </V8>

</D1>
</COLUMNTYPE>
</RTS>

任何帮助将不胜感激。

最佳答案

我不太确定所有这些的意义是什么,但我在这里看到基本上有两个选择:

  • 如果所有字段都可以解释为大整数,或者您的目标是将这些字段作为整数,那么您可以使用类型转换,在不显着损失功能的情况下,应该或多或少地提供您想要的内容:

    case class D1(
    v1: Seq[Double], v2: String, v3: String, v4: Long, v7: Double, v8: Double
    )
    case class ColumnType(d1: D1)

    val df = Seq(ColumnType(D1(
    Seq(4232323, 42451267),
    "21-11-2000 01:04:34",
    "NTS",
    212212112,
    100.0000,
    100.0000
    ))).toDF()

    df.select(struct(
    $"d1.v1".cast("array<bigint>").alias("v1"),
    $"d1.v2", $"d1.v3", $"d1.v4", $"d1.v7", $"d1.v8"
    ).alias("d1"))
  • 如果您出于演示原因需要特定的数字格式,您可以将数据转换为格式化字符串数组:

    val toFormatted = udf((xs: Seq[Double]) => xs.map(x => f"$x%4.0f"))

    df.select(struct(
    toFormatted($"d1.v1").alias("v1"),
    $"d1.v2", $"d1.v3", $"d1.v4", $"d1.v7", $"d1.v8"
    ).alias("d1"))

关于scala - 如何在 spark-xml 中禁用科学记数法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38196739/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com