apache-spark - Spark 总结值而不管键-6ren

apache-spark - Spark 总结值而不管键

转载作者：行者123 更新时间：2023-12-04 14:10:48

我的元组列表如下所示:

Tup = [(u'X45', 2), (u'W80', 1), (u'F03', 2), (u'X61', 2)]

我想总结所有值，在这种情况下， 2+1+2+2=7
我可以用 Tup.reduceByKey()如果键相同，则在 Spark 中。但是我可以在 spark 中使用哪个函数来总结所有值，而不管键是什么？

我试过 Tup.sum()但它给了我 (u'X45', 2, u'W80', 1, u'F03', 2, u'X61', 2)
BTW 由于数据集很大，我想在RDD中总结，所以我不使用 Tup.collect()和 sum它从 Spark 中取出来。

最佳答案

这很容易。

从概念上讲，您应该首先映射原始 RDD 并提取第二个值。然后总结那些

在斯卡拉

val x = List(("X45", 2), ("W80", 1), ("F03", 2), ("X61", 2))
val rdd = sc.parallelize(x)
rdd.map(_._2).sum()

在 Python 中

x = [(u'X45', 2), (u'W80', 1), (u'F03', 2), (u'X61', 2)]
rdd = sc.parallelize(x)
y = rdd.map(lambda x : x[1]).sum()

在这两种情况下，都会打印 7 的总和。

关于apache-spark - Spark 总结值而不管键，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34148016/

文章推荐： SAS 跨行复制最大值

文章推荐： Rmarkdown 图像跳过文本

文章推荐： php - 在 PHP 中将整数转换为十六进制值

文章推荐： lua - Torch - 如何更改张量类型？

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

apache-spark - Spark 总结值而不管键