gpt4 book ai didi

python - 展平 Spark DataFrame 中的嵌套数组

转载 作者:行者123 更新时间:2023-12-05 02:01:33 25 4
gpt4 key购买 nike

我正在从以下位置读取一些 JSON:

{"a": [{"b": {"c": 1, "d": 2}}]}

也就是说,数组项是不必要的嵌套。现在,因为这发生在数组内部,所以 How to flatten a struct in a Spark dataframe? 中给出的答案不要直接申请。

这是解析时数据框的样子:

root
|-- a: array
| |-- element: struct
| | |-- b: struct
| | | |-- c: integer
| | | |-- d: integer

我希望将数据框转换成这样:

root
|-- a: array
| |-- element: struct
| | |-- b_c: integer
| | |-- b_d: integer

如何为数组中的列设置别名以有效取消嵌套?

最佳答案

您可以使用转换:

df2 = df.selectExpr("transform(a, x -> struct(x.b.c as b_c, x.b.d as b_d)) as a")

关于python - 展平 Spark DataFrame 中的嵌套数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66476940/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com