gpt4 book ai didi

json - 不一致的 JSON 模式猜测与 Spark 数据帧

转载 作者:行者123 更新时间:2023-12-02 01:31:32 27 4
gpt4 key购买 nike

尝试使用 Spark 1.4.1 数据帧读取 JSON 文件并在内部导航。
似乎猜测的架构不正确。

JSON 文件是:

{
"FILE": {
"TUPLE_CLI": [{
"ID_CLI": "C3-00000004",
"TUPLE_ABO": [{
"ID_ABO": "T0630000000000004",
"TUPLE_CRA": {
"CRA": "T070000550330",
"EFF": "Success"
},
"TITRE_ABO": ["Mr",
"OOESGUCKDO"],
"DATNAISS": "1949-02-05"
},
{
"ID_ABO": "T0630000000100004",
"TUPLE_CRA": [{
"CRA": "T070000080280",
"EFF": "Success"
},
{
"CRA": "T070010770366",
"EFF": "Failed"
}],
"TITRE_ABO": ["Mrs",
"NP"],
"DATNAISS": "1970-02-05"
}]
},
{
"ID_CLI": "C3-00000005",
"TUPLE_ABO": [{
"ID_ABO": "T0630000000000005",
"TUPLE_CRA": [{
"CRA": "T070000200512",
"EFF": "Success"
},
{
"CRA": "T070010410078",
"EFF": "Success"
}],
"TITRE_ABO": ["Miss",
"OB"],
"DATNAISS": "1926-11-22"
}]
}]
}
}

Spark 代码是:
val j = sqlContext.read.json("/user/arthur/test.json")
j.printSchema

结果是:
root
|-- FILE: struct (nullable = true)
| |-- TUPLE_CLI: array (nullable = true)
| | |-- element: struct (containsNull = true)
| | | |-- ID_CLI: string (nullable = true)
| | | |-- TUPLE_ABO: array (nullable = true)
| | | | |-- element: struct (containsNull = true)
| | | | | |-- DATNAISS: string (nullable = true)
| | | | | |-- ID_ABO: string (nullable = true)
| | | | | |-- TITRE_ABO: array (nullable = true)
| | | | | | |-- element: string (containsNull = true)
| | | | | |-- TUPLE_CRA: string (nullable = true)

很明显 TUPLE_CRA 是一个数组。我不明白为什么没有猜到。在我看来,推断的模式应该是:
root
|-- FILE: struct (nullable = true)
| |-- TUPLE_CLI: array (nullable = true)
| | |-- element: struct (containsNull = true)
| | | |-- ID_CLI: string (nullable = true)
| | | |-- TUPLE_ABO: array (nullable = true)
| | | | |-- element: struct (containsNull = true)
| | | | | |-- DATNAISS: string (nullable = true)
| | | | | |-- ID_ABO: string (nullable = true)
| | | | | |-- TITRE_ABO: array (nullable = true)
| | | | | | |-- element: string (containsNull = true)
| | | | | |-- TUPLE_CRA: array (nullable = true)
| | | | | | |-- element: struct (containsNull = true)
| | | | | | | |-- CRA: string (nullable = true)
| | | | | | | |-- EFF: string (nullable = true)

有人有解释吗?
如果 JSON 模式更复杂,有没有办法轻松地告诉 Spark 实际模式是什么?

最佳答案

好吧,终于明白JSON不是预期的。
您会注意到第一个 TUPLE_CRA 是一个没有方括号 [] 的元素。
其他的 TUPLE_CRA 是带括号的数组,里面有几个元素。
这就是 Spark 无法准确猜测结构的原因。
所以问题出在这个JSON的生成上。我需要修改它以使每个 TUPLE_CRA 成为一个数组,即使里面只有一个元素。

关于json - 不一致的 JSON 模式猜测与 Spark 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33940472/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com