hadoop - 指定 YARN 节点标签时 YARN 应用程序无法启动

转载作者：可可西里更新时间：2023-11-01 14:19:30

28

4

我正在尝试使用 YARN node labels标记工作节点，但是当我在 YARN(Spark 或简单的 YARN 应用程序)上运行应用程序时，这些应用程序无法启动。

使用 Spark，指定 --conf spark.yarn.am.nodeLabelExpression="my-label" 时，作业无法启动(在 Submitted application [...] 上被阻止，请参阅下面的详细信息)。
使用 YARN 应用程序(如 distributedshell )，当指定 -node_label_expression my-label 时, 应用程序也无法启动

这是我到目前为止所做的测试。

YARN 节点标签设置

我正在使用 Google Dataproc运行我的集群(例如:4 个 worker ，2 个在 preemptible nodes 上)。我的目标是强制任何 YARN 应用程序主机在不可抢占的节点上运行，否则该节点可以随时关闭，从而使应用程序严重失败。

我正在使用 YARN 属性 ( --properties ) 创建集群以启用节点标签:

gcloud dataproc clusters create \
    my-dataproc-cluster \
    --project [PROJECT_ID] \
    --zone [ZONE] \
    --master-machine-type n1-standard-1 \
    --master-boot-disk-size 10 \
    --num-workers 2 \
    --worker-machine-type n1-standard-1 \
    --worker-boot-disk-size 10 \
    --num-preemptible-workers 2 \
    --properties 'yarn:yarn.node-labels.enabled=true,yarn:yarn.node-labels.fs-store.root-dir=/system/yarn/node-labels'

打包的 Hadoop 和 Spark 版本:

Hadoop 版本:2.8.2
Spark 版本:2.2.0

之后，我创建了一个标签(my-label)，并用这个标签更新了两个不可抢占的 worker:

yarn rmadmin -addToClusterNodeLabels "my-label(exclusive=false)"
yarn rmadmin -replaceLabelsOnNode "\
    [WORKER_0_NAME].c.[PROJECT_ID].internal=my-label \
    [WORKER_1_NAME].c.[PROJECT_ID].internal=my-label"

我可以在 YARN Web UI 中看到创建的标签:

Spark

当我运行一个简单示例 (SparkPi) 时没有指定有关节点标签的信息:

spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master yarn \
  --deploy-mode client \
  /usr/lib/spark/examples/jars/spark-examples.jar \
  10

在 YARN Web UI 的“调度程序”选项卡中，我看到应用程序在 <DEFAULT_PARTITION>.root.default 上启动.

但是当我运行指定 spark.yarn.am.nodeLabelExpression 的作业时设置 Spark application master 的位置:

spark-submit \
    --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode client \
    --conf spark.yarn.am.nodeLabelExpression="my-label" \
    /usr/lib/spark/examples/jars/spark-examples.jar \
    10

作业未启动。在 YARN Web UI 中，我看到:

YarnApplicationState:ACCEPTED: waiting for AM container to be allocated, launched and register with RM.
诊断:Application is Activated, waiting for resources to be assigned for AM. Details : AM Partition = my-label ; Partition Resource = <memory:6144, vCores:2> ; Queue's Absolute capacity = 0.0 % ; Queue's Absolute used capacity = 0.0 % ; Queue's Absolute max capacity = 0.0 % ;

我怀疑与标签分区相关的队列(不是 <DEFAULT_PARTITION，另一个)没有足够的资源来运行作业:

在这里，Used Application Master Resources是<memory:1024, vCores:1> ，但是 Max Application Master Resources是<memory:0, vCores:0> .这解释了应用程序无法启动的原因，但我不知道如何更改它。

我尝试更新不同的参数，但没有成功:

yarn.scheduler.capacity.root.default.accessible-node-labels=my-label

或增加这些属性:

yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.capacity
yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.maximum-capacity
yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.maximum-am-resource-percent
yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.user-limit-factor
yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.minimum-user-limit-percent

都没有成功。

纱应用

运行 YARN 应用程序时问题相同:

hadoop jar \
    /usr/lib/hadoop-yarn/hadoop-yarn-applications-distributedshell.jar \
    -shell_command "echo ok" \
    -jar /usr/lib/hadoop-yarn/hadoop-yarn-applications-distributedshell.jar \
    -queue default \
    -node_label_expression my-label

应用无法启动，日志不断重复:

INFO distributedshell.Client: Got application report from ASM for, appId=6, clientToAMToken=null, appDiagnostics= Application is Activated, waiting for resources to be assigned for AM. Details : AM Partition = my-label ; Partition Resource = <memory:6144, vCores:2> ; Queue's Absolute capacity = 0.0 % ; Queue's Absolute used capacity = 0.0 % ; Queue's Absolute max capacity = 0.0 % ; , appMasterHost=N/A, appQueue=default, appMasterRpcPort=-1, appStartTime=1520354045946, yarnAppState=ACCEPTED, distributedFinalState=UNDEFINED, [...]

如果我不指定 -node_label_expression my-label ，应用程序开始于 <DEFAULT_PARTITION>.root.default并取得成功。

问题

我是不是对标签做错了什么？但是，我遵循了 official documentation和 this guide
这是与 Dataproc 相关的特定问题吗？因为以前的指南似乎适用于其他环境
也许我需要创建一个特定的队列并将其与我的标签相关联？但是由于我正在运行一个“一次性”集群来运行单个 Spark 作业，所以我不需要特定的队列，因此在默认根目录上运行作业对我的用例来说不是问题

感谢帮助

最佳答案

一位谷歌工程师回答了我们(在我们提出的私有(private)问题上，而不是在 PIT 中)，并通过为 Dataproc 集群创建指定初始化脚本给了我们一个解决方案。我不认为问题来自 Dataproc，这基本上只是 YARN 配置。该脚本在创建节点标签 (my-label) 之后在 capacity-scheduler.xml 中设置以下属性:

<property>
  <name>yarn.scheduler.capacity.root.accessible-node-labels</name>
  <value>my-label</value>
</property>
<property>
  <name>yarn.scheduler.capacity.root.accessible-node-labels.my-label.capacity</name>
  <value>100</value>
</property>
<property>
  <name>yarn.scheduler.capacity.root.default.accessible-node-labels</name>
  <value>my-label</value>
</property>
<property>
  <name>yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.capacity</name>
  <value>100</value>
</property>

根据脚本的评论，这“在 root(根队列)和上设置accessible-node-labels root.default(实际运行的默认队列应用程序)”。 root.default 部分是我测试中缺少的部分。两者的容量都设置为 100。

然后，需要重新启动 YARN(systemctl restart hadoop-yarn-resourcemanager.service)以验证修改。

在那之后，我能够开始在我的问题中未能完成的工作。

希望对遇到相同或类似问题的人有所帮助。

关于hadoop - 指定 YARN 节点标签时 YARN 应用程序无法启动，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49148645/

28

4

0

文章推荐： hadoop - Spark 是否支持 With 子句？

文章推荐： windows - 如何获取 git 存储库中每个修订版的文件 list ？

文章推荐： windows - 在 Windows 上编译 libyaml

文章推荐： c# - AutoIT 或 User32 按钮偶尔点击工作

out-of-memory - 启动 minishift 或占用大量内存时，启动 OpenShift 集群永远不会结束
每当我运行命令以将 Virtualbox 驱动程序启动 Minishift 到操作系统主机时，它都需要一段疯狂的时间，而且它永远不会结束。有时我什至收到有关达到存储限制的错误消息。不知道是不是描述h
node.js - 使用 docker 启动 npm 启动？
您好，我正在使用 npm 运行一个基本的 React 项目，我正尝试在 docker 容器中启动它。但是我实际上无法让项目运行。我的 dockerfile 看起来像这样: FROM node:7.8.
linux - 无法从 SSH 启动 MonoGame，但可以从 GUI 启动
所以我想从我的 SSH 终端开始游戏。这真的很奇怪，当我直接从 Linux GUI 执行此操作时，它可以工作。但是当我使用 SSH 客户端进行远程连接时，它就崩溃了。似乎与我的显示驱动程序有关。 U
android - 从 WallpaperService 启动 Intent 或向 WallpaperService 启动 Intent
我有一个显示图像的动态壁纸。我在 Activity 中更改了该图像。然后我需要通知动态壁纸，以便它知道重新加载资源。 Intent 似乎是完美、简单的解决方案: Intent intent = new
java - 可以从 Eclipse (STS) 启动 Spring Boot，但不能从 CLI 启动
我有一个似乎无法解决的问题。我在 Boot Dashboard 中使用 STS 3.9.2 从 Eclipse (Oxygen) 启动 Spring Boot 应用程序没有任何问题: 但是，当我尝试从
python - 在 CMD "python"启动 Python 3.3， "py"启动 Python 2.7，我该如何更改？
全新的 Python，在我开始摆弄东西之前先设置和安装东西。我的理解是 Python 2.7 和 Python 3.3 之间存在一些显着差异/不兼容，尽管这两个版本都得到了很好的使用，所以我认为最好安
jQuery 启动
在使用了很长时间的 jQuery 之后，我有一个问题，我正在使用 jQuery 模式(样式)编写一个简单的代码， (function(window, undefined) { var jQu
Spring 启动@Configurable
我正在尝试在 spring boot 应用程序下的非 spring 托管类中配置 Autowired。我在 tomcat 服务器下部署的 Web 应用程序下成功运行了这个。但是当我想在 spring
haskell - 启动 xmonad
我对 xmonad 完全陌生，但我想开始使用它来提高我的工作效率。这是我一直在使用的指南(我使用的是 Apple OS X Snow Leopard) http://xmonad.org/tour.
Spring 启动-管理交易和多个数据源
我试图将Spring Boot指南中的Managing Transactions示例扩展到两个数据源，但是@Transaction注释似乎仅对其中一个数据源有效。在“Application.java
Conemu 启动，任务打开多个选项卡
conEmu 有没有办法默认打开多个不同的选项卡？我看到这个页面解释了如何使用 splits , 我意识到我可以按 Ctrl + T, 1, Enter，但我希望有一种方法可以自动执行此操作! "%
jquery - SignalR - 启动
我正在寻找快速而肮脏的答案。我当时脑子一片空白，盯着屏幕看了 12 个小时以上，我想我中枪了。我想做一个简单的 SignalR 应用程序作为教程。我找到了这个example ，但我不断收到票证未定义
powershell - 启动/停止特定订阅下的所有虚拟机
我正在使用 Azure Powershell cmdlet 来启动/停止 VM。 Start-AzureVM [-ServiceName] [-Name] [ ] Stop-AzureVM [-S
iis - 启动/停止iis和mssql的powershell脚本代码
我想使用Powershell脚本代码启动/停止iis和mssql 意味着当我运行ps脚本时，我想启动/停止iis和mssql 我在网上搜索了它，发现了一些代码，但按照我的要求无法正常工作码: $ii
liferay - 启动 liferay
我在 liferay 工作。我们在我们的项目中使用一个模块来创建 liferay 主题。我使用命令 ant -Ddeploy.war=true 将它部署在服务器中。 war 文件在 liferay 部
ipython - 启动 IPython
我想在已安装 Python 2.7 的 Windows XP 计算机上运行 IPython(版本 0.12)。我通过 Windows 二进制安装程序安装，但安装后 IPython 没有显示在菜单中，
docker - 启动+卷挂载后在docker容器内自动运行命令
我从创建了自己的简单图片。 FROM python:2.7.11 RUN mkdir /extra/later/ \ && mkdir /yyy 现在，我可以执行以下步骤: docker run
javascript - 启动/停止脚本以刷新页面
$(document).ready(function () { setTimeout(function() { window.location.reload(); }, 2000); // 2
javascript - OpenWeatherMap 启动
我刚刚创建了一个帐户 OpenWeatherMap 我想通过城市 ID API 调用获取当前位置的天气: http://api.openweathermap.org/data/2.5/weather?
ios - 启动 Storyboard中的图像未更新
我注意到，如果我更改 xcasset 中的图像，启动 Storyboard不会更新。例如，假设您的启动 Storyboard中有一个 UIImage View ，其中包含一个名为“logo”的蓝色图

首页

博学

6Ren·AI

商城

hadoop - 指定 YARN 节点标签时 YARN 应用程序无法启动

YARN 节点标签设置

Spark

纱应用

问题