gpt4 book ai didi

java - 如何有效地将多个 json 文件读入 Dataframe 或 JavaRDD?

转载 作者:搜寻专家 更新时间:2023-11-01 01:06:01 25 4
gpt4 key购买 nike

我可以使用以下代码读取单个 json 文件,但我需要读取多个 json 文件并将它们合并到一个 Dataframe 中。我怎样才能做到这一点?

DataFrame jsondf = sqlContext.read().json("/home/spark/articles/article.json");

或者有没有办法将多个 json 文件读入 JavaRDD,然后转换为 Dataframe?

最佳答案

要在 Spark 中读取多个输入,请使用通配符。无论您是构建数据框还是 rdd,这都是正确的。

context.read().json("/home/spark/articles/*.json")
// or getting json out of s3
context.read().json("s3n://bucket/articles/201510*/*.json")

关于java - 如何有效地将多个 json 文件读入 Dataframe 或 JavaRDD?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33710898/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com