python - pyspark : Save schemaRDD as json file-6ren

python - pyspark : Save schemaRDD as json file

转载作者：太空狗更新时间：2023-10-29 23:58:50

27

4

我正在寻找一种将数据从 Apache Spark 导出到 JSON 格式的各种其他工具的方法。我认为一定有一种非常简单的方法来做到这一点。

示例:我有以下 JSON 文件“jfile.json”:

{"key":value_a1, "key2":value_b1},
{"key":value_a2, "key2":value_b2},
{...}

文件的每一行都是一个 JSON 对象。这些类型的文件可以很容易地读入 PySpark

jsonRDD = jsonFile('jfile.json')

然后看起来像(通过调用 jsonRDD.collect()):

[Row(key=value_a1, key2=value_b1),Row(key=value_a2, key2=value_b2)]

现在我想将这些文件保存回纯 JSON 文件。

我在 Spark 用户列表中找到了这个条目:

http://apache-spark-user-list.1001560.n3.nabble.com/Updating-exising-JSON-files-td12211.html

声称使用

RDD.saveAsTextFile(jsonRDD)

这样做之后，文本文件看起来像

Row(key=value_a1, key2=value_b1)
Row(key=value_a2, key2=value_b2)

，即 jsonRDD 刚刚被明确写入文件。在阅读 Spark 用户列表条目后，我本以为会有一种“自动”转换回 JSON 格式。我的目标是拥有一个看起来像开头提到的“jfile.json”的文件。

我是否错过了一个非常明显的简单方法来做到这一点？

我读了http://spark.apache.org/docs/latest/programming-guide.html ，搜索谷歌，用户列表和堆栈溢出寻找答案，但几乎所有答案都涉及将 JSON 读取和解析到 Spark 中。我什至购买了“Learning Spark”一书，但那里的示例(第 71 页)只会生成与上述相同的输出文件。

有人可以帮我吗？我觉得我在这里只缺少一个小链接

提前干杯和感谢!

最佳答案

您可以使用 toJson() 方法，它允许您将 SchemaRDD 转换为 JSON 文档的 MappedRDD。

https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=tojson#pyspark.sql.SchemaRDD.toJSON

关于python - pyspark : Save schemaRDD as json file，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26737251/

27

4

0

文章推荐： C# Null 与 LINQ 合并

postgresql - 将 PostgreSQL 数据库加载到 SchemaRDD
我在 PostgreSQL 中有一个包含 100 万行和 100 多列的数据源，我想使用 Spark SQL，所以我想转换这个数据源以获得 SchemaRDD . Spark SQL Programm
sql - 如何将 Spark SchemaRDD 转换为我的案例类的 RDD？
在 Spark 文档中，很清楚如何从您自己的案例类的 RDD 创建 Parquet 文件； (来自文档) val people: RDD[Person] = ??? // An RDD of case
python - pyspark : Save schemaRDD as json file
我正在寻找一种将数据从 Apache Spark 导出到 JSON 格式的各种其他工具的方法。我认为一定有一种非常简单的方法来做到这一点。示例:我有以下 JSON 文件“jfile.json”: {
hive - 将 Spark SchemaRDD 保存到 Hive 数据仓库
我们有很多 Json 日志，想要构建我们的 Hive 数据仓库。将 Json 日志导入 spark schemaRDD 很容易，schemaRDD 有一个 saveAsTable 方法，但它只适用于从
apache-spark - 如何将 Avro 结构转换为 SchemaRDD 并返回？
有没有办法转换Avro结构到 SchemaRDD ?我在 https://issues.apache.org/jira/browse/SPARK-2736 中看到了 JavaRDD 的示例，但无法找到
amazon-s3 - 在 S3 上以 Parquet 格式保存 >>25T SchemaRDD
在 S3 上尝试以 Parquet 格式保存非常大的 SchemaRDD 时，我遇到了许多问题。我已经针对这些问题发布了具体问题，但这正是我真正需要做的。代码应该是这样的 import org.apa
sql - 为什么我想要 .union 而不是 .unionAll 在 Spark 中用于 SchemaRDD？
我正试图围绕 Spark SQL documentation 中的这两个函数进行思考。 —— def union(other: RDD[Row]): RDD[Row] 返回此 RDD 和另一个 RDD

首页

博学

6Ren·AI

商城

python - pyspark : Save schemaRDD as json file