gpt4 book ai didi

java - Spark : Technical terminology for reduce elements on the run-time?

转载 作者:可可西里 更新时间:2023-11-01 16:30:34 27 4
gpt4 key购买 nike

在下面的字数统计示例中:

(Hello,1)
(Hello,1)
(Hello,1)
(Hello,1)
(Hello,1)

Hadoop 的 reducer 函数会收集所有 5 个键为“Hello”的元素,然后在 reducer 函数中进行聚合。

但是在Spark中,实际上是每次减少2个元素。比如把第一个和第二个(Hello,1)组合成(Hello,2),把第三个和第四个(Hello,1)组合成(Hello,2)……等等(当然,真实情况可能是在不同的顺序)。

那么有专门的术语来描述Spark中使用的这种计算方法吗?谢谢!

最佳答案

它不一定以这种方式聚合值。您认为 MapReduce 中的映射器如何工作?

你可以把它想象成一个 hashmap。如果它发现键已经在 HashMap 中,它会增加值,如果没有,它会将键插入 HashMap 中,然后初始化值。

除非我忘记了一些数学运算,否则你不能在某些组合中添加 1+1+1+1+1 而不添加 1+1,+1,+1,+1。

关于java - Spark : Technical terminology for reduce elements on the run-time?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34644181/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com