scala - PairRDD 的总和值-6ren

scala - PairRDD 的总和值

转载作者：行者123 更新时间：2023-12-04 22:58:06

25

4

我有一个 RDD 类型:

dataset :org.apache.spark.rdd.RDD[(String, Double)] = MapPartitionRDD[26]

相当于 (Pedro, 0.0833), (Hello, 0.001828) ...
我想总结所有的值(value)， 0.0833+0.001828..但我找不到合适的
解决方案。

最佳答案

考虑到您的输入数据，您可以执行以下操作:

// example
val datasets = sc.parallelize(List(("Pedro", 0.0833), ("Hello", 0.001828))) 
datasets.map(_._2).sum()
// res3: Double = 0.085128
// or
datasets.map(_._2).reduce(_ + _)
// res4: Double = 0.085128
// or even
datasets.values.sum()
// res5: Double = 0.085128

关于scala - PairRDD 的总和值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36011464/

25

4

0

文章推荐： azure - 在资源管理器模板中定义 WebApp 插槽

文章推荐： intellij-idea - 在intellij中，更改build.sbt后如何刷新项目

文章推荐： java - 在 ubuntu 12.04 中安装 netbeans 时出错

scala - PairRDD 的总和值
我有一个 RDD 类型: dataset :org.apache.spark.rdd.RDD[(String, Double)] = MapPartitionRDD[26] 相当于 (Pedro, 0
scala - 将 rdd 转换为 pairRDD
这是一个新手问题。是否有可能将像 (key,1,2,3,4,5,5,666,789,...) 这样具有动态维度的 RDD 转换成像 (key , (1,2,3,4,5,5,666,789,...))
scala - 如何查看scala变量的类型？例如一个 Spark PairRDD
我有这一行: val data = sc.textFile(filepath).zipWithIndex().map{case (k,v) => (v,k)} 我想创建一个以 data 作为参数的函数
java - 枚举作为 Spark PairRDD 导致问题的关键
当 RDD 的键是或包含枚举时，Spark PairRDD 上的某些操作无法正常工作。例如，以下一段 Spark 代码需要两周的工作日，并按工作日计算它们: import java.time.Day
python - PySpark:迭代 PairRDD 中的值
如何在 RDD(key,value) 中迭代一个值。 tsRDD.map(lambda x:(x,1)).groupByKey() 返回 [('abc', ), ('pqr', ), ('xyz'
apache-spark - 如何从 Spark PairRDD 存储和读取数据
Spark PairRDD 可以选择保存文件。 JavaRDD baseRDD = context.parallelize(Arrays.asList("This", "is", "dummy", "
java - 加入 2 个 PairRDDs 而不洗牌
我有 2 个 PairRDD:非常大的 rddA 和小得多的 rddB。我需要按键连接它们，以便我可以进一步迭代对应于相同键的那些 PairRDD 的元素对。 PairRDD#join 方法似乎正是我
java - Spark Streaming : Using PairRDD. saveAsNewHadoopDataset函数保存数据到HBase
我想在 HBase 数据库中保存 Twitter 流。我现在拥有的是用于接收和转换数据的 Saprk 应用程序。但是我不知道如何将我的 TwitterStream 保存到 HBase 中？我发现唯一
hadoop - Spark - 连接 2 个 PairRDD 元素
你好，有一个包含 2 个元素的 JavaRDDPair: ("TypeA", List), ("TypeB", List) 我需要将 2 对组合成 1 对类型: ("TypeA_B", List) 我
java - 在 Scala 中将 RDD 映射到 PairRDD
我正在尝试将 RDD 映射到 Scala 中的 pairRDD，以便稍后可以使用 reduceByKey。这是我所做的: userRecords 属于 org.apache.spark.rdd.RDD
java - 如何在 Java 中结合使用 Spark RDD 和 PairRDD
我有一个包含列 userId(String)、itemId(int) 和 rating(int) 的数据集。 +----------+----------+---------+ | userId
scala - 使用 Spark SQL GROUP BY 对 DataFrame 进行高效的 PairRDD 操作
这个问题是关于聚合操作时DataFrame和RDD之间的对偶性。在 Spark SQL 中，可以使用表生成 UDF 进行自定义聚合，但创建其中之一通常明显不如使用可用于 RDD 的聚合函数方便用户，尤

首页

博学

6Ren·AI

商城

scala - PairRDD 的总和值