gpt4 book ai didi

Hadoop:什么时候在 reducer 中调用 setup 方法?

转载 作者:可可西里 更新时间:2023-11-01 16:58:15 26 4
gpt4 key购买 nike

据我了解,reduce 任务分为三个阶段。

Shuffle、Sort 和实际的 reduce 调用。

所以通常在 hadoop 作业的输出中我们会看到类似的东西, map 0% 减少 0% map 20% 减少 0%... map 90% 减少 10%...

所以我假设 reduce 任务在所有映射完成之前开始,并且此行为由慢启动配置控制。

现在我还不明白reducer的setup方法到底是什么时候调用的。

在我的用例中,我有一些文件要在设置方法中解析。该文件大小约为 60MB,是从分布式缓存中获取的。在解析文件时,配置中有另一组数据可以更新刚刚解析的记录。解析和可能的更新后,文件存储在 HashMap 中以供快速查找。所以我希望尽快调用此方法,可能是在映射器仍在执行它们的操作时。

这有可能吗?或者这已经发生了?

谢谢

最佳答案

Setup 在能够从流中读取第一个键/值对之前被调用。

这在所有映射器运行并且给定 reducer 分区的所有合并完成后有效。

关于Hadoop:什么时候在 reducer 中调用 setup 方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27364810/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com