gpt4 book ai didi

python - 从 pyspark 中的字典列创建数据框

转载 作者:太空宇宙 更新时间:2023-11-04 09:37:13 25 4
gpt4 key购买 nike

我想从 pyspark 中的现有数据框创建一个新的数据框。数据框“df”包含一个名为“data”的列,该列具有字典行和模式作为字符串。并且每个字典的键不是固定的。例如,名称和地址是第一行字典的键,但对于其他行则不是这样,它们可能不同。以下是该示例;

........................................................
data
........................................................
{"name": "sam", "address":"uk"}
........................................................
{"name":"jack" , "address":"aus", "occupation":"job"}
.........................................................

如何转换为具有如下各列的数据框。

 name   address    occupation
sam uk
jack aus job

最佳答案

data 转换为 RDD,然后使用 spark.read.json 将 RDD 转换为具有模式的 dataFrame。

data = [
{"name": "sam", "address":"uk"},
{"name":"jack" , "address":"aus", "occupation":"job"}
]

spark = SparkSession.builder.getOrCreate()
df = spark.read.json(sc.parallelize(data)).na.fill('')
df.show()
+-------+----+----------+
|address|name|occupation|
+-------+----+----------+
| uk| sam| |
| aus|jack| job|
+-------+----+----------+

关于python - 从 pyspark 中的字典列创建数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53219863/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com