gpt4 book ai didi

hadoop - 如何从 sequenceFile 创建一个 spark DataFrame

转载 作者:可可西里 更新时间:2023-11-01 14:23:54 25 4
gpt4 key购买 nike

我正在使用 spark 1.5。我想从 HDFS 中的文件创建一个 dataframe。 HDFS 文件包含 json 数据,其中包含大量序列输入文件格式的字段。

有没有办法在 java 中优雅地做到这一点?事先不知道json的结构/字段。

我能够从序列文件中将输入作为 RDD,如下所示:

JavaPairRDD<LongWritable,BytesWritable> inputRDD = jsc.sequenceFile("s3n://key_id:secret_key@file/path", LongWritable.class, BytesWritable.class);
JavaRDD<String> events = inputRDD.map(
new Function<Tuple2<LongWritable,BytesWritable>, String>() {
public String call(Tuple2<LongWritable,BytesWritable> tuple) {
return Text.decode(tuple._2.getBytes());
}
}
);

我如何从这个 RDD 创建数据框?

最佳答案

我对序列文件中的 json 数据执行了以下操作:

    JavaRDD<String> events = inputRDD.map(
new Function<Tuple2<LongWritable,BytesWritable>, String>() {
public String call(Tuple2<LongWritable,BytesWritable> tuple) throws JSONException, UnsupportedEncodingException {
String valueAsString = new String(tuple._2.getBytes(), "UTF-8");
JSONObject data = new JSONObject(valueAsString);
JSONObject payload = new JSONObject(data.getString("payload"));
String atlas_ts = "";
return payload.toString();
}
}
);

关于hadoop - 如何从 sequenceFile 创建一个 spark DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32697687/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com