gpt4 book ai didi

hadoop - 在 Google Cloud Dataproc 中按顺序运行提交的作业

转载 作者:可可西里 更新时间:2023-11-01 15:03:45 27 4
gpt4 key购买 nike

我使用 n1-standard-4 虚拟机为主节点和工作节点创建了包含 2 个工作节点的 Google Dataproc 集群。

我想在给定的集群上提交作业,所有作业都应该按顺序运行(就像在 AWS EMR 上一样),即,如果第一个作业处于运行状态,那么接下来的作业将进入待处理状态,在完成第一个作业后,第二个作业开始运行。

我尝试在集群上提交作业,但它并行运行所有作业 - 没有作业进入挂起状态。

是否可以在 Dataproc 集群中设置任何配置,以便所有作业按顺序运行?

更新了以下文件:

/etc/hadoop/conf/yarn-site.xml

  <property>
<name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
</property>
<property>
<name>yarn.scheduler.fair.user-as-default-queue</name>
<value>false</value>
</property>
<property>
<name>yarn.scheduler.fair.allocation.file</name>
<value>/etc/hadoop/conf/fair-scheduler.xml</value>
</property>

/etc/hadoop/conf/fair-scheduler.xml

<?xml version="1.0" encoding="UTF-8"?>
<allocations>
<queueMaxAppsDefault>1</queueMaxAppsDefault>
</allocations>

之后使用此命令重启服务 systemctl restart hadoop-yarn-resourcemanager 主节点上的上述更改。但作业仍在并行运行。

最佳答案

如果资源可用,Dataproc 会尝试并行执行提交的作业。

要实现顺序执行,您可能需要使用一些编排解决方案,Dataproc WorkflowsCloud Composer .

或者,您可能想要 configure YARN Fair Scheduler在 Dataproc 上并将 queueMaxAppsDefault 属性设置为 1。

关于hadoop - 在 Google Cloud Dataproc 中按顺序运行提交的作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53849969/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com