gpt4 book ai didi

apache-spark - Spark 总结值而不管键

转载 作者:行者123 更新时间:2023-12-04 14:10:48 24 4
gpt4 key购买 nike

我的元组列表如下所示:

Tup = [(u'X45', 2), (u'W80', 1), (u'F03', 2), (u'X61', 2)]

我想总结所有值,在这种情况下, 2+1+2+2=7
我可以用 Tup.reduceByKey()如果键相同,则在 Spark 中。但是我可以在 spark 中使用哪个函数来总结所有值,而不管键是什么?

我试过 Tup.sum()但它给了我 (u'X45', 2, u'W80', 1, u'F03', 2, u'X61', 2)
BTW 由于数据集很大,我想在RDD中总结,所以我不使用 Tup.collect()sum它从 Spark 中取出来。

最佳答案

这很容易。

从概念上讲,您应该首先映射原始 RDD 并提取第二个值。然后总结那些

在斯卡拉

val x = List(("X45", 2), ("W80", 1), ("F03", 2), ("X61", 2))
val rdd = sc.parallelize(x)
rdd.map(_._2).sum()

在 Python 中
x = [(u'X45', 2), (u'W80', 1), (u'F03', 2), (u'X61', 2)]
rdd = sc.parallelize(x)
y = rdd.map(lambda x : x[1]).sum()

在这两种情况下,都会打印 7 的总和。

关于apache-spark - Spark 总结值而不管键,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34148016/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com