gpt4 book ai didi

java - Java 中 Spark Dataframe 的直方图

转载 作者:行者123 更新时间:2023-12-02 12:34:41 24 4
gpt4 key购买 nike

是否可以使用 Java 中的 Spark 2.1 从 Dataset<Row> 生成直方图数据帧表?

最佳答案

  1. 使用 toJavaRDD().map() 函数将数据集转换为 JavaRDD,其中数据类型可以是 Integer、Double 等。
  2. 再次使用mapToDouble函数将JavaRDD转换为JavaDoubleRDD。
  3. 然后您可以应用 histogram(int bucketcount) 来获取数据的直方图。

示例:我在 Spark 中得到了一个表,表名称为“nation”,列为“n_nationkey”,它是 Integer,那么我就是这样做的:

String query = "select n_nationkey from nation" ;
Dataset<Row> df = spark.sql(query);
JavaRDD<Integer> jdf = df.toJavaRDD().map(row -> row.getInt(0));
JavaDoubleRDD example = jdf.mapToDouble(y -> y);
Tuple2<double[], long[]> resultsnew = example.histogram(5);

如果列具有 double 类型,您只需将一些内容替换为:

JavaRDD<Double> jdf = df.toJavaRDD().map(row -> row.getDouble(0));
JavaDoubleRDD example = jdf.mapToDouble(y -> y);
Tuple2<double[], long[]> resultsnew = example.histogram(5);

关于java - Java 中 Spark Dataframe 的直方图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45177049/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com