gpt4 book ai didi

python - pyspark : Save schemaRDD as json file

转载 作者:太空狗 更新时间:2023-10-29 23:58:50 27 4
gpt4 key购买 nike

我正在寻找一种将数据从 Apache Spark 导出到 JSON 格式的各种其他工具的方法。我认为一定有一种非常简单的方法来做到这一点。

示例:我有以下 JSON 文件“jfile.json”:

{"key":value_a1, "key2":value_b1},
{"key":value_a2, "key2":value_b2},
{...}

文件的每一行都是一个 JSON 对象。这些类型的文件可以很容易地读入 PySpark

jsonRDD = jsonFile('jfile.json')

然后看起来像(通过调用 jsonRDD.collect()):

[Row(key=value_a1, key2=value_b1),Row(key=value_a2, key2=value_b2)]

现在我想将这些文件保存回纯 JSON 文件。

我在 Spark 用户列表中找到了这个条目:

http://apache-spark-user-list.1001560.n3.nabble.com/Updating-exising-JSON-files-td12211.html

声称使用

RDD.saveAsTextFile(jsonRDD) 

这样做之后,文本文件看起来像

Row(key=value_a1, key2=value_b1)
Row(key=value_a2, key2=value_b2)

,即 jsonRDD 刚刚被明确写入文件。在阅读 Spark 用户列表条目后,我本以为会有一种“自动”转换回 JSON 格式。我的目标是拥有一个看起来像开头提到的“jfile.json”的文件。

我是否错过了一个非常明显的简单方法来做到这一点?

我读了http://spark.apache.org/docs/latest/programming-guide.html ,搜索谷歌,用户列表和堆栈溢出寻找答案,但几乎所有答案都涉及将 JSON 读取和解析到 Spark 中。我什至购买了“Learning Spark”一书,但那里的示例(第 71 页)只会生成与上述相同的输出文件。

有人可以帮我吗?我觉得我在这里只缺少一个小链接

提前干杯和感谢!

最佳答案

您可以使用 toJson() 方法,它允许您将 SchemaRDD 转换为 JSON 文档的 MappedRDD。

https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=tojson#pyspark.sql.SchemaRDD.toJSON

关于python - pyspark : Save schemaRDD as json file,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26737251/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com