gpt4 book ai didi

java - Spark scala 模式在加载时未强制执行

转载 作者:行者123 更新时间:2023-12-02 01:41:15 26 4
gpt4 key购买 nike

我正在 Spark shell 上尝试 Spark scala 示例,如下所示;

val myManualSchema = StructType(Array(StructField("DEST_COUNTRY_NAME", StringType, true), 
StructField("ORIGIN_COUNTRY_NAME",StringType
, true), StructField("count", LongType, nullable=false)))

val dfNew = spark.read.format("json").schema(myManualSchema).load("/test.json")

dfNew.printSchema()

我得到的输出如下;

root
|-- DEST_COUNTRY_NAME: string (nullable = true)
|-- ORIGIN_COUNTRY_NAME: string (nullable = true)
|-- count: long (nullable = true)

我期待的是 count栏目为nullable=false但它似乎没有得到执行。然而,当我从这个 DataFrame 创建一个新的 DataFrame 并在那里设置架构时,它就可以工作了。这就是我所做的;

val dfSchemaTest = spark.createDataFrame(dfNew.rdd,myManualSchema)

scala> dfSchemaTest.printSchema()
root
|-- DEST_COUNTRY_NAME: string (nullable = true)
|-- ORIGIN_COUNTRY_NAME: string (nullable = true)
|-- count: long (nullable = false)

如果有人能在下面指出我在加载数据文件时未强制执行架构的错误,我将不胜感激。

最佳答案

没有什么可以做的,因为可空性是由文件格式强制执行的。这正是 Spark 所做的 - 如果数据源无法确保该列不为 null,则 DataFrame 在读取时也无法确保。

关于java - Spark scala 模式在加载时未强制执行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54433142/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com