gpt4 book ai didi

java - 分解JavaPairRDD对象

转载 作者:行者123 更新时间:2023-12-02 03:11:37 26 4
gpt4 key购买 nike

我有一个JavaPairRDD<Dimension, Metrics> ,这里Dimension & Metrics对象有一堆成员。有没有办法将其转换为 Dataset<Row>以及两个对象的所有列/成员。或者还有办法转储这个JavaPairRDD到一个文件,其中两个对象的列/成员用制表符或逗号分隔。

最佳答案

您可以使用map()将 JavaPairRDD 转换为 JavaRDD,将 Dimension 和 Metrics 中的所有成员表示为逗号分隔的字符串。

之后您可以 save it as a Text file

执行此操作的逻辑步骤:

  • 重写 Dimension 和 Metrics 类中的 toString()。您可以将逗号分隔的值列表作为字符串返回其中。

在您的 Spark 应用程序中 -

Function<Tuple2<Dimension, Metrics>, String> f = tuple -> (tuple._1.toString() +"," + tuple._2.toString());
JavaRDD csvRdd = pairRDD.map(f);
csvRdd.saveAsTextFile("your file path")
  • 阿米特

关于java - 分解JavaPairRDD对象,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56990742/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com