gpt4 book ai didi

json - 从 SparkSQL 在 Scala 中保存 JSON

转载 作者:行者123 更新时间:2023-12-04 02:17:01 25 4
gpt4 key购买 nike

我正在使用 Spark SQL 从 JSON 文件中提取一些信息。问题是我想将 SQL 分析的结果保存到另一个 JSON 中,以便用 Plateau 或 d3.js 绘制它。问题是我不知道该怎么做。有什么建议吗?

val inputTable = sqlContext.jsonFile(inputDirectory).cache()inputTable.registerTempTable("inputTable")

val languages = sqlContext.sql("""
SELECT
user.lang,
COUNT(*) as cnt
FROM tweetTable
GROUP BY user.lang
ORDER BY cnt DESC
LIMIT 15""")
languages.rdd.saveAsTextFile(outputDirectory + "/lang")
languages.collect.foreach(println)

我不介意将数据保存到 .csv 文件中,但我不知 Prop 体如何操作。

谢谢!

最佳答案

只是

val languagesDF: DataFrame = sqlContext.sql("<YOUR_QUERY>")
languagesDF.write.json("your.json")

您不需要返回到 RDD

不过,请注意,您的 JSON 将被分成多个部分。如果这不是您的意图,请阅读

关于如何规避这一点(如果确实需要)。要点在于使用 repartitioncoalesce

关于json - 从 SparkSQL 在 Scala 中保存 JSON,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33200939/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com