gpt4 book ai didi

java - 使用java将json数据加载到Spark中的Pair RDD中

转载 作者:太空宇宙 更新时间:2023-11-04 13:27:52 26 4
gpt4 key购买 nike

我对 Spark 很陌生。

我有一个非常基本的问题。我在 Spark RDD 中读取了一个文件,其中每一行都是一个 JSON。我想进行像应用 groupBy 那样的转换。所以我想将每个 JSON 行转换为一个 PairRDD。在Java中是否有直接的方法来做到这一点?

我的json是这样的:

{
"tmpl": "p",
"bw": "874",
"aver": {"cnac": "US","t1": "2"},
}

目前,我尝试的方法是先按 , 拆分,然后按 : 拆分。有没有直接的方法可以做到这一点?

我当前的代码:

val pairs = setECrecords.flatMap(x => (x.split(",")))
pairs.foreach(println)

val pairsastuple = pairs.map(x => if(x.split("=").length>1) (x.split("=")(0), x.split("=")(1)) else (x.split("=")(0), x))

最佳答案

您可以尝试mapToPair() ,但使用Spark SQL & DataFrames API 将使您能够更轻松地对事物进行分组。数据帧 API 允许您直接加载 JSON 数据。

关于java - 使用java将json数据加载到Spark中的Pair RDD中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32484044/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com