- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在寻找一种将数据从 Apache Spark 导出到 JSON 格式的各种其他工具的方法。我认为一定有一种非常简单的方法来做到这一点。
示例:我有以下 JSON 文件“jfile.json”:
{"key":value_a1, "key2":value_b1},
{"key":value_a2, "key2":value_b2},
{...}
文件的每一行都是一个 JSON 对象。这些类型的文件可以很容易地读入 PySpark
jsonRDD = jsonFile('jfile.json')
然后看起来像(通过调用 jsonRDD.collect()):
[Row(key=value_a1, key2=value_b1),Row(key=value_a2, key2=value_b2)]
现在我想将这些文件保存回纯 JSON 文件。
我在 Spark 用户列表中找到了这个条目:
http://apache-spark-user-list.1001560.n3.nabble.com/Updating-exising-JSON-files-td12211.html
声称使用
RDD.saveAsTextFile(jsonRDD)
这样做之后,文本文件看起来像
Row(key=value_a1, key2=value_b1)
Row(key=value_a2, key2=value_b2)
,即 jsonRDD 刚刚被明确写入文件。在阅读 Spark 用户列表条目后,我本以为会有一种“自动”转换回 JSON 格式。我的目标是拥有一个看起来像开头提到的“jfile.json”的文件。
我是否错过了一个非常明显的简单方法来做到这一点?
我读了http://spark.apache.org/docs/latest/programming-guide.html ,搜索谷歌,用户列表和堆栈溢出寻找答案,但几乎所有答案都涉及将 JSON 读取和解析到 Spark 中。我什至购买了“Learning Spark”一书,但那里的示例(第 71 页)只会生成与上述相同的输出文件。
有人可以帮我吗?我觉得我在这里只缺少一个小链接
提前干杯和感谢!
最佳答案
您可以使用 toJson() 方法,它允许您将 SchemaRDD 转换为 JSON 文档的 MappedRDD。
关于python - pyspark : Save schemaRDD as json file,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26737251/
我在 PostgreSQL 中有一个包含 100 万行和 100 多列的数据源,我想使用 Spark SQL,所以我想转换这个数据源以获得 SchemaRDD . Spark SQL Programm
在 Spark 文档中,很清楚如何从您自己的案例类的 RDD 创建 Parquet 文件; (来自文档) val people: RDD[Person] = ??? // An RDD of case
我正在寻找一种将数据从 Apache Spark 导出到 JSON 格式的各种其他工具的方法。我认为一定有一种非常简单的方法来做到这一点。 示例:我有以下 JSON 文件“jfile.json”: {
我们有很多 Json 日志,想要构建我们的 Hive 数据仓库。将 Json 日志导入 spark schemaRDD 很容易,schemaRDD 有一个 saveAsTable 方法,但它只适用于从
有没有办法转换Avro结构到 SchemaRDD ?我在 https://issues.apache.org/jira/browse/SPARK-2736 中看到了 JavaRDD 的示例,但无法找到
在 S3 上尝试以 Parquet 格式保存非常大的 SchemaRDD 时,我遇到了许多问题。我已经针对这些问题发布了具体问题,但这正是我真正需要做的。代码应该是这样的 import org.apa
我正试图围绕 Spark SQL documentation 中的这两个函数进行思考。 —— def union(other: RDD[Row]): RDD[Row] 返回此 RDD 和另一个 RDD
我是一名优秀的程序员,十分优秀!