gpt4 book ai didi

web-services - 并行运行 EMR 的步骤

转载 作者:行者123 更新时间:2023-12-04 05:09:25 24 4
gpt4 key购买 nike

我在 上运行一个 spark-job EMR集群 ,我面临的问题是

EMR jobs triggered are executing in steps (in queue)



有没有办法让它们并行运行
如果没有,是否有任何改变

最佳答案

默认情况下,Elastic MapReduce 带有一个非常“步骤”导向的 YARN 设置,具有一个分配 100% 集群资源的单一 CapacityScheduler 队列。由于此配置,每当您向 EMR 集群提交作业时,YARN 都会最大限度地提高该单个作业的集群使用率,将所有可用资源授予它,直到它完成。

在 EMR 集群(或任何其他基于 YARN 的 Hadoop 集群,事实上)中运行多个并发作业需要一个具有多个队列的正确 YARN 设置,以正确地为每个作业分配资源。 YARN 的文档非常好地介绍了所有容量调度程序功能,而且听起来更简单。

YARN 的 FairScheduler 非常流行,但它使用不同的方法,并且根据您的需要可能更难配置。假设您有一个公平队列的最简单场景,YARN 将尝试在等待作业通过运行作业被释放后立即将容器授予容器,以确保提交到集群的所有作业尽快获得至少一部分计算资源因为它们可用。

关于web-services - 并行运行 EMR 的步骤,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43121382/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com