gpt4 book ai didi

hadoop - 在 hadoop 中并行运行作业

转载 作者:可可西里 更新时间:2023-11-01 14:11:22 25 4
gpt4 key购买 nike

我是 hadoop 的新手。

我已经设置了一个 2 节点集群。

如何在 hadoop 中并行运行 2 个作业。

当我提交作业时,它们会按照先进先出的顺序一个接一个地运行。我必须并行运行这些作业。如何实现。

谢谢MRK

最佳答案

Hadoop 可以配置多个调度器,默认是 FIFO 调度器。

FIFO Schedule 的行为是这样的。

场景一:如果集群有10个Map Task容量,job1需要15个Map Task,那么运行job1就占用了整个集群。当 job1 取得进展并且有可用的空闲插槽未被 job1 使用时,job2 将在集群上运行。

场景二:如果集群有10个Map Task容量,job1需要6个Map Task,那么job1占用6个slot,job2占用4个slot。 job1 和 job2 并行运行。

要从一开始就并行运行作业,您可以配置 Fair SchedulerCapacity Scheduler根据您的要求。必须设置 mapreduce.jobtracker.taskscheduler 和特定的调度程序参数才能在 mapred-site.xml 中生效.

编辑:根据 MRK 的评论更新了答案。

关于hadoop - 在 hadoop 中并行运行作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7483624/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com