gpt4 book ai didi

java - Spark聚合方法中的并发

转载 作者:行者123 更新时间:2023-12-01 10:35:51 25 4
gpt4 key购买 nike

我是 Spark 和 MapReduce 的初学者,据我了解 Spark 聚合(ByKey)方法遵循 MapReduce 模式,我希望有人帮助我确认它是否正确。

  1. 第一个函数参数“segFunc”获取每个键的数据并且对每个键并行运行。就像map中的map()减少。
  2. 第二个函数参数“combFun”收集数据对于每个键,即使跨分区,它也不是并行运行的并且系统保证了该联合收割机的同步所有按键之间的功能。它就像MapReduce中的combiner()。

请指正,非常感谢。

最佳答案

它遵循映射/归约模式,但您的映射/归约模式错误。

第一阶段将并行运行,并为每个键创建一条记录(这些记录将保留在内存中或溢出到磁盘,具体取决于 Spark 中的可用资源与保存到 Hadoop 中的磁盘)

然后下一阶段也将(或至少可以)并行运行 - 每个键。之前创建的数据将被获取并合并,因此每个键的数据将到达单个目的地(reducer)

获取阶段称为混洗

Hadoop 中的组合器正在执行类似归约的行为,并在映射阶段发出部分结果(向归约器)

关于java - Spark聚合方法中的并发,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34741682/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com