gpt4 book ai didi

java - 如何使用 Apache spark 计算平均值?

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:58:47 24 4
gpt4 key购买 nike

我处理这样存储的 Double 列表:

JavaRDD<Double> myDoubles

我想计算这个列表的平均值。根据documentation , :

All of MLlib’s methods use Java-friendly types, so you can import and call them there the same way you do in Scala. The only caveat is that the methods take Scala RDD objects, while the Spark Java API uses a separate JavaRDD class. You can convert a Java RDD to a Scala one by calling .rdd() on your JavaRDD object.

在同一页面上,我看到以下代码:

val MSE = valuesAndPreds.map{case(v, p) => math.pow((v - p), 2)}.mean()

根据我的理解,这等同于(在类型方面)

Double MSE = RDD<Double>.mean()

因此,我试图计算我的 JavaRDD 的平均值像这样:

myDoubles.rdd().mean()

但是,它不起作用并给我以下错误:The method mean() is undefined for the type RDD<Double> .我也没有在 RDD scala documentation 中找到此功能的提及。 ..这是因为我这边理解不好,还是另有原因?

最佳答案

其实很简单:mean()JavaDoubleRDD 定义类(class)。我没有找到如何从 JavaRDD<Double> 转换至 JavaDoubleRDD ,但就我而言,没有必要。

确实,scala中的这一行

val mean = valuesAndPreds.map{case(v, p) => (v - p)}.mean()

在Java中可以表示为

double mean = valuesAndPreds.mapToDouble(tuple -> tuple._1 - tuple._2).mean();

关于java - 如何使用 Apache spark 计算平均值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24694303/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com