gpt4 book ai didi

Hadoop 容量调度程序和 Spark

转载 作者:可可西里 更新时间:2023-11-01 16:47:05 26 4
gpt4 key购买 nike

如果我按照此处的说明在 yarn 中定义 CapacityScheduler 队列

http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html

如何让 spark 使用它?

我想运行 spark 作业...但它们不应占用所有集群,而是在分配了一组固定资源的 CapacityScheduler 上执行。

这可能......特别是在 cloudera 平台上(考虑到 cloudera 上的 Spark 在 yarn 上运行?)。

最佳答案

  1. 您应该根据需要通过编辑 capacity-scheduler.xml 配置 CapacityScheduler。您还需要在 yarn-site.xml 中指定 yarn.resourcemanager.scheduler.class 为 org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler 这也是当前 hadoop 版本的默认选项
  2. 将 spark 作业提交到设计的队列。

例如:

$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 1 \
--queue thequeue \
lib/spark-examples*.jar \
10

--queue表示你要提交的队列,需要符合你的CapacityScheduler配置

关于Hadoop 容量调度程序和 Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36167378/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com