gpt4 book ai didi

python - PySpark 将 DataFrame 保存到实际的 JSON 文件

转载 作者:太空宇宙 更新时间:2023-11-04 00:53:22 34 4
gpt4 key购买 nike

如何将 PySpark DataFrame 保存为真实的 JSON 文件?

按照文档,我试过了

df.write.json('myfile.json')

它可以工作,但是它将文件保存为一系列字典,每行一个,这不能被正确读取

import json
d = json.load(open('myfile.json'))

我希望文件包含字典列表。有办法吗?

最佳答案

有办法吗?不是真的,或者至少不是以一种优雅的方式。您可以将数据转换为 Python RDD、计算分区统计信息并手动构建完整的文档,但这看起来像是在浪费时间。

如果你想获得 dictslist 只需逐行解析文件(-s):

with open('myfile.json') as fr:
dicts = [json.loads(line) for line in fr]

关于python - PySpark 将 DataFrame 保存到实际的 JSON 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36156561/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com