google-cloud-platform - GCP Dataproc - 配置 YARN 公平调度程序-6ren

google-cloud-platform - GCP Dataproc - 配置 YARN 公平调度程序

转载作者：行者123 更新时间：2023-12-04 16:46:14

24

4

我试图建立一个 dataproc 集群，它一次只计算一个作业(或指定的最大作业)，其余的将在队列中。

我找到了这个解决方案，How to configure monopolistic FIFO application queue in YARN? ，但由于我一直在创建新集群，因此我需要将其自动化。我已将此添加到集群创建中:

"softwareConfig": {
    "properties": {
        "yarn:yarn.resourcemanager.scheduler.class":"org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler",
        "yarn:yarn.scheduler.fair.user-as-default-queue":"false",
        "yarn:yarn.scheduler.fair.allocation.file":"$HADOOP_CONF_DIR/fair-scheduler.xml",
     }
}

init 操作脚本中的另一行:

sudo echo "<allocations><queueMaxAppsDefault>1</queueMaxAppsDefault></allocations>" > /etc/hadoop/conf/fair-scheduler.xml

当我获取它的配置时，集群告诉我这个:

'softwareConfig': {
  'imageVersion': '1.2.27',
  'properties': {
    'capacity-scheduler:yarn.scheduler.capacity.root.default.ordering-policy': 'fair',
    'core:fs.gs.block.size': '134217728',
    'core:fs.gs.metadata.cache.enable': 'false',
    'distcp:mapreduce.map.java.opts': '-Xmx4096m',
    'distcp:mapreduce.map.memory.mb': '5120',
    'distcp:mapreduce.reduce.java.opts': '-Xmx4096m',
    'distcp:mapreduce.reduce.memory.mb': '5120',
    'hdfs:dfs.datanode.address': '0.0.0.0:9866',
    'hdfs:dfs.datanode.http.address': '0.0.0.0:9864',
    'hdfs:dfs.datanode.https.address': '0.0.0.0:9865',
    'hdfs:dfs.datanode.ipc.address': '0.0.0.0:9867',
    'hdfs:dfs.namenode.http-address': '0.0.0.0:9870',
    'hdfs:dfs.namenode.https-address': '0.0.0.0:9871',
    'hdfs:dfs.namenode.secondary.http-address': '0.0.0.0:9868',
    'hdfs:dfs.namenode.secondary.https-address': '0.0.0.0:9869',
    'mapred-env:HADOOP_JOB_HISTORYSERVER_HEAPSIZE': '3840',
    'mapred:mapreduce.job.maps': '189',
    'mapred:mapreduce.job.reduce.slowstart.completedmaps': '0.95',
    'mapred:mapreduce.job.reduces': '63',
    'mapred:mapreduce.map.cpu.vcores': '1',
    'mapred:mapreduce.map.java.opts': '-Xmx4096m',
    'mapred:mapreduce.map.memory.mb': '5120',
    'mapred:mapreduce.reduce.cpu.vcores': '1',
    'mapred:mapreduce.reduce.java.opts': '-Xmx4096m',
    'mapred:mapreduce.reduce.memory.mb': '5120',
    'mapred:mapreduce.task.io.sort.mb': '256',
    'mapred:yarn.app.mapreduce.am.command-opts': '-Xmx4096m',
    'mapred:yarn.app.mapreduce.am.resource.cpu-vcores': '1',
    'mapred:yarn.app.mapreduce.am.resource.mb': '5120',
    'spark-env:SPARK_DAEMON_MEMORY': '3840m',
    'spark:spark.driver.maxResultSize': '1920m',
    'spark:spark.driver.memory': '3840m',
    'spark:spark.executor.cores': '8',
    'spark:spark.executor.memory': '37237m',
    'spark:spark.yarn.am.memory': '640m',
    'yarn:yarn.nodemanager.resource.memory-mb': '81920',
    'yarn:yarn.resourcemanager.scheduler.class': 'org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler',
    'yarn:yarn.scheduler.fair.allocation.file': '$HADOOP_CONF_DIR/fair-scheduler.xml',
    'yarn:yarn.scheduler.fair.user-as-default-queue': 'false',
    'yarn:yarn.scheduler.maximum-allocation-mb': '81920',
    'yarn:yarn.scheduler.minimum-allocation-mb': '1024'
  }
},

文件 fair-scheduler.xml 还包含指定的代码(所有内容都在一行中，但我认为这可能不是问题所在)

毕竟，集群仍然像容量调度程序负责一样。不知道为什么。任何建议都会有所帮助。
谢谢。

最佳答案

由于init actions脚本是在集群创建后运行的，所以在脚本修改yarn-site.xml的时候，yarn服务已经在运行了。

所以修改xml配置文件并创建其他xml文件后，需要重启yarn服务。
可以使用以下命令完成:

sudo systemctl restart hadoop-yarn-resourcemanager.service

此外，由于未设置 $HADOOP_CONF_DIR(我认为应该设置)，因此需要输入文件的整个路径。但是，在那之后，初始 YARN 服务将无法启动，因为它找不到稍后在 init 操作脚本中创建的文件。所以，我所做的是将最后几行添加到 init 操作脚本中的 yarn-site.xml 中。
init ActionScript 的代码如下:

ROLE=$(/usr/share/google/get_metadata_value attributes/dataproc-role)
if [[ "${ROLE}" == 'Master' ]]; then
    echo "<allocations>" > /etc/hadoop/conf/fair-scheduler.xml
    echo "  <queueMaxAppsDefault>1</queueMaxAppsDefault>" >> /etc/hadoop/conf/fair-scheduler.xml
    echo "</allocations>" >> /etc/hadoop/conf/fair-scheduler.xml

    sed -i '$ d' /etc/hadoop/conf/yarn-site.xml

    echo "  <property>" >> /etc/hadoop/conf/yarn-site.xml
    echo "    <name>yarn.scheduler.fair.allocation.file</name>" >> /etc/hadoop/conf/yarn-site.xml
    echo "    <value>/etc/hadoop/conf/fair-scheduler.xml</value>" >> /etc/hadoop/conf/yarn-site.xml
    echo "  </property>" >> /etc/hadoop/conf/yarn-site.xml
    echo "</configuration>" >> /etc/hadoop/conf/yarn-site.xml
    systemctl restart hadoop-yarn-resourcemanager.service
fi

关于google-cloud-platform - GCP Dataproc - 配置 YARN 公平调度程序，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49556305/

24

4

0

文章推荐：使用 SUMPRODUCT 针对月份日期设置 Excel 求和公式

文章推荐： memory-management - 动态内存分配

文章推荐： session - 将用户名和密码存储在 cookie 中有什么问题？

文章推荐： uml - 如何在 UML 类图中表达 "returns a"关系？

google-apps-script - 使用 Google 应用程序脚本刷新从 Google 表格粘贴到 Google 幻灯片中的表格
这里的这个问题对 updating Google Sheets charts linked to Google slides 有一个简洁的解决方案. function onOpen() { var
google-apps-script - 用于将 Google 表单添加到 Google 类作业的 Google 脚本
我正在尝试将 Google 表单添加到 Google 类作业中，但似乎不可能。首先，它在这里 ( https://developers.google.com/classroom/reference/
google-visualization - Google 日期时间格式化程序不适用于 Google 折线图
出于某种原因，无论我做什么以及我如何尝试，这个日期格式化程序都不起作用。工具提示仍然显示错误的格式。你可以试试代码here . 在代码中我必须注释掉 formatter.format(dataTabl
google-analytics - Google Analytics - 是否必须从托管 Google Analytics 帐户的 Google 配置文件创建服务帐户？
我目前正在使用访问 token 和刷新 token 从 Google Analytics Reporting API (v4) 中提取数据。当我致力于自动从 Google Analytics 中提取数
google-sheets - Google 电子表格中 Google 驱动器中的引用文件
我已在 Google 云端硬盘中创建了一个文件夹，例如测试一下，放入3个文件 a.jpg, b.jpg, c.jpg 我希望在同一帐户下的 Google 电子表格中访问文件，例如生成图像文件的链接，可
google-apps-script - 在 Google 网站中嵌入 Google 电子表格时，Google Apps 脚本可帮助解决错误？
电子表格 A 是欢迎新移民来到我们小镇的团队的主数据源。它里面有大量非常敏感的数据，不能公开，哪怕是一点点。 (我们谈论的是 child 的姓名和出生日期以及他们在哪里上学……保证电子表格 A 的安全
google-apps-script - 使用 Google Apps 脚本从 Google 表格数据表复制到 Google 文档表
有没有办法在 Google 文档中编写 Google Apps 脚本以从 Google 表格中检索仅限于非空白行的范围并将这些行显示为表格？我正在寻找一个脚本，用于使用 Google Apps 脚本
google-apps-script - 使用 Google Apps 脚本从 Google 表格数据表复制到 Google 文档表
有没有办法在 Google 文档中编写 Google Apps 脚本以从 Google 表格中检索仅限于非空白行的范围并将这些行显示为表格？我正在寻找一个脚本，用于使用 Google Apps 脚本
google-apps-script - 使用 Google Apps 脚本从 Google Firebase 写入 Google Sheets
尝试检索存储在 google firebase 中名为条目的节点下的表单条目，并使用谷歌工作表中的脚本编辑器附加到谷歌工作表。我已将 FirebaseApp 库添加到谷歌表脚本编辑器。然后我的代码看
google-oauth - Google oauth - 限制登录到特定的 google 组
是否可以将我的 Web 应用程序的登录限制为仅限 google 组中的帐户？我不希望每个人都可以使用他们的私有(private) gmail 登录，而只能使用我的 google 组中的用户。最佳答
google-oauth - 带有 Google 自定义搜索功能的 Google 附加链接搜索框
我们想使用 Google 自定义搜索实现 Google 附加链接搜索框。在谷歌 documentation , 我发现我们需要包含以下代码来启用附加链接搜索框 { "@context"
google-trends - 我可以将 Google 趋势图添加到 Google 数据洞察吗？
我想将特定搜索词的 Google 趋势图表添加到我的 Google Data Studio 报告中，但趋势不是数据源列表中的选项。我也找不到嵌入 JavaScript 的选项。是否可以将趋势图表添加到
google-drive-api - 将文件从 Google Drive 复制到 Google 内的 Google Cloud Storage
是否可以将文件从 Google Drive 复制到 Google Cloud Storage？我想它会非常快，因为两者都在类似的存储系统上。我还没有看到有关无缝执行此操作的任何方法的任何信息，而无需
google-analytics - Google Universal Analytics Google-自定义维度
之间有什么区别 ga('send', 'pageview', { 'dimension1': 'data goes here' }); 和 ga('set', 'dimension1', 'da
google-analytics - Google Universal Analytics Google-浏览量
我正在尝试记录每个博客站点作者的点击率。 ga('send', 'pageview'); (in the header with the ga code to track each page) ga(
google-analytics - 自定义变量值未从 Google 跟踪代码管理器传递到 Google Analytics
我设置了 Google Tag Manager 和 2 个数据层变量:一个用于跟踪用户 ID，传递给 Google Analytics 以同步用户 session ，另一个用于跟踪访问者类型。在使用
google-search - Google for Jobs 显示的工作位置不正确(Google 使用的是我们公司的总部)
我在我们的网站上遇到多个职位发布的问题。我们在加拿大多个地点提供工作机会。所有职位页面都包含一个“LD+JSON ”职位发布的结构化数据，基于 Google 的职位发布文档: https://dev
google-analytics - 无需 Google 帐户即可访问 Google Analytics
公司未使用 Google 套件，使用个人(消费者)帐户(甚至是 Google 帐户)违反公司政策。需要访问 Google Analytics - 没有 Google 帐户是否可能？谢谢最佳答案
google-analytics - Google Play 应用页面的 Google Analytics
我想分析人们使用哪些搜索关键字在 Play 商店中找到我的应用。那可能吗？我怎么能这样做？最佳答案自 2013 年 10 月起，您可以关联您的 Google Analytics(分析)和 Goo
google-api - 是否有用于访问 Google Now 或 Google Keep 中设置的提醒的公共(public) Google API？
Google Now 和 Google Keep 中基于时间和位置的提醒与 Google Calendar 事件提醒不同。是否有公共(public) API 可以访问 Now 和 Keep 中的这些事

首页

博学

6Ren·AI

商城

google-cloud-platform - GCP Dataproc - 配置 YARN 公平调度程序