gpt4 book ai didi

apache - Map Reduce 中的 Map Reduce

转载 作者:可可西里 更新时间:2023-11-01 14:55:11 26 4
gpt4 key购买 nike

我使用 Hadoop 开发 Map/Reduce。我的驱动程序向 Hadoop 的作业跟踪器提交一个 MapReduce 作业(带有一个 Map 和 Reduce 任务)。我有两个问题:a) 我的 Map 或 reduce 任务可以提交另一个 MapReduce 作业吗? (具有相同的 Hadoop 集群和相同的 Job Tracker)。这意味着,我的开始驱动程序提交一个 mapreduce 作业,其中它的 map 或 reduce 任务产生另一个 MapReduce 作业,并将其提交到同一个集群 Hadoop 和同一个 Job Tracker。我认为这是可能的。但我不确定。而且,它有什么好的解决办法吗?如果没有,我们可以有其他解决方案吗?

b) 我们可以在 MapReduce 作业中使用两个 Map 任务(具有两个不同的功能和一个 Reduce 任务吗?非常感谢

最佳答案

您当然可以使用 ChainMapper class 链接多个 map 阶段

您还可以使用 JobControl 类和 addDependingJob() 方法设置作业之间的依赖关系。这可能比让 Map Reduce 作业产生其他 Map Reduce 作业更可取,后者违背了 Map Reduce 的基本方法,因为它可能会导致您的解决方案不再对单个节点上的硬件故障具有鲁棒性。

Chuck Lam 的 Hadoop in Action 第 5 章对此有很好的概述。

关于apache - Map Reduce 中的 Map Reduce,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9711821/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com