gpt4 book ai didi

hadoop - 指定 YARN 节点标签时 YARN 应用程序无法启动

转载 作者:可可西里 更新时间:2023-11-01 14:19:30 28 4
gpt4 key购买 nike

我正在尝试使用 YARN node labels标记工作节点,但是当我在 YARN(Spark 或简单的 YARN 应用程序)上运行应用程序时,这些应用程序无法启动。

  • 使用 Spark,指定 --conf spark.yarn.am.nodeLabelExpression="my-label" 时,作业无法启动(在 Submitted application [...] 上被阻止,请参阅下面的详细信息)。

  • 使用 YARN 应用程序(如 distributedshell ),当指定 -node_label_expression my-label 时, 应用程序也无法启动

这是我到目前为止所做的测试。

YARN 节点标签设置

我正在使用 Google Dataproc运行我的集群(例如:4 个 worker ,2 个在 preemptible nodes 上)。我的目标是强制任何 YARN 应用程序主机在不可抢占的节点上运行,否则该节点可以随时关闭,从而使应用程序严重失败。

我正在使用 YARN 属性 ( --properties ) 创建集群以启用节点标签:

gcloud dataproc clusters create \
my-dataproc-cluster \
--project [PROJECT_ID] \
--zone [ZONE] \
--master-machine-type n1-standard-1 \
--master-boot-disk-size 10 \
--num-workers 2 \
--worker-machine-type n1-standard-1 \
--worker-boot-disk-size 10 \
--num-preemptible-workers 2 \
--properties 'yarn:yarn.node-labels.enabled=true,yarn:yarn.node-labels.fs-store.root-dir=/system/yarn/node-labels'

打包的 Hadoop 和 Spark 版本:

  • Hadoop 版本:2.8.2
  • Spark 版本:2.2.0

之后,我创建了一个标签(my-label),并用这个标签更新了两个不可抢占的 worker:

yarn rmadmin -addToClusterNodeLabels "my-label(exclusive=false)"
yarn rmadmin -replaceLabelsOnNode "\
[WORKER_0_NAME].c.[PROJECT_ID].internal=my-label \
[WORKER_1_NAME].c.[PROJECT_ID].internal=my-label"

我可以在 YARN Web UI 中看到创建的标签:

Label created on YARN

Spark

当我运行一个简单示例 (SparkPi) 时没有指定有关节点标签的信息:

spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
/usr/lib/spark/examples/jars/spark-examples.jar \
10

在 YARN Web UI 的“调度程序”选项卡中,我看到应用程序在 <DEFAULT_PARTITION>.root.default 上启动.

但是当我运行指定 spark.yarn.am.nodeLabelExpression 的作业时设置 Spark application master 的位置:

spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
--conf spark.yarn.am.nodeLabelExpression="my-label" \
/usr/lib/spark/examples/jars/spark-examples.jar \
10

作业未启动。在 YARN Web UI 中,我看到:

  • YarnApplicationState:ACCEPTED: waiting for AM container to be allocated, launched and register with RM.
  • 诊断:Application is Activated, waiting for resources to be assigned for AM. Details : AM Partition = my-label ; Partition Resource = <memory:6144, vCores:2> ; Queue's Absolute capacity = 0.0 % ; Queue's Absolute used capacity = 0.0 % ; Queue's Absolute max capacity = 0.0 % ;

我怀疑与标签分区相关的队列(不是 <DEFAULT_PARTITION,另一个)没有足够的资源来运行作业:

Spark job accepted

在这里,Used Application Master Resources<memory:1024, vCores:1> ,但是 Max Application Master Resources<memory:0, vCores:0> .这解释了应用程序无法启动的原因,但我不知道如何更改它。

我尝试更新不同的参数,但没有成功:

yarn.scheduler.capacity.root.default.accessible-node-labels=my-label

或增加这些属性:

yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.capacity
yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.maximum-capacity
yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.maximum-am-resource-percent
yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.user-limit-factor
yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.minimum-user-limit-percent

都没有成功。

纱应用

运行 YARN 应用程序时问题相同:

hadoop jar \
/usr/lib/hadoop-yarn/hadoop-yarn-applications-distributedshell.jar \
-shell_command "echo ok" \
-jar /usr/lib/hadoop-yarn/hadoop-yarn-applications-distributedshell.jar \
-queue default \
-node_label_expression my-label

应用无法启动,日志不断重复:

INFO distributedshell.Client: Got application report from ASM for, appId=6, clientToAMToken=null, appDiagnostics= Application is Activated, waiting for resources to be assigned for AM. Details : AM Partition = my-label ; Partition Resource = <memory:6144, vCores:2> ; Queue's Absolute capacity = 0.0 % ; Queue's Absolute used capacity = 0.0 % ; Queue's Absolute max capacity = 0.0 % ; , appMasterHost=N/A, appQueue=default, appMasterRpcPort=-1, appStartTime=1520354045946, yarnAppState=ACCEPTED, distributedFinalState=UNDEFINED, [...]

如果我不指定 -node_label_expression my-label ,应用程序开始于 <DEFAULT_PARTITION>.root.default并取得成功。

问题

  • 我是不是对标签做错了什么?但是,我遵循了 official documentationthis guide
  • 这是与 Dataproc 相关的特定问题吗?因为以前的指南似乎适用于其他环境
  • 也许我需要创建一个特定的队列并将其与我的标签相关联?但是由于我正在运行一个“一次性”集群来运行单个 Spark 作业,所以我不需要特定的队列,因此在默认根目录上运行作业对我的用例来说不是问题

感谢帮助

最佳答案

一位谷歌工程师回答了我们(在我们提出的私有(private)问题上,而不是在 PIT 中),并通过为 Dataproc 集群创建指定初始化脚本给了我们一个解决方案。我不认为问题来自 Dataproc,这基本上只是 YARN 配置。该脚本在创建节点标签 (my-label) 之后在 capacity-scheduler.xml 中设置以下属性:

<property>
<name>yarn.scheduler.capacity.root.accessible-node-labels</name>
<value>my-label</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.accessible-node-labels.my-label.capacity</name>
<value>100</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.default.accessible-node-labels</name>
<value>my-label</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.capacity</name>
<value>100</value>
</property>

根据脚本的评论,这“在 root(根队列) 上设置accessible-node-labels root.default(实际运行的默认队列应用程序)”。 root.default 部分是我测试中缺少的部分。两者的容量都设置为 100。

然后,需要重新启动 YARN(systemctl restart hadoop-yarn-resourcemanager.service)以验证修改。

在那之后,我能够开始在我的问题中未能完成的工作。

希望对遇到相同或类似问题的人有所帮助。

关于hadoop - 指定 YARN 节点标签时 YARN 应用程序无法启动,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49148645/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com