gpt4 book ai didi

apache-spark - 如何获得 Spark 作业以使用 Google Cloud DataProc 集群上的所有可用资源?

转载 作者:行者123 更新时间:2023-12-04 05:30:58 24 4
gpt4 key购买 nike

例如,我目前有一个由一个 master 和 4 个 worker 组成的 DataProc 集群,每台机器有 8 个 vCPU 和 30GB 内存。

每当我向集群提交作业时,集群总共提交最多 11GB,并且只使用 2 个工作节点来完成工作,并且在这些节点上仅使用 2 个 vCPU 资源。这使得原本应该只需要几分钟的工作需要将近一个小时才能执行。

我试过编辑 spark-defaults.conf主节点上的文件,并尝试运行我的 spark-submit带参数的命令 --executor-cores 4 --executor-memory 20g --num-executors 4但两者都没有任何影响。

这些集群只会启动以执行单个任务,然后将被拆除,因此不需要为任何其他作业保留资源。

最佳答案

我设法通过将调度程序更改为 FIFO 来解决我的问题而不是 FAIR , 在我的 create 末尾使用以下内容命令:
--properties spark:spark.scheduler.mode=FIFO

关于apache-spark - 如何获得 Spark 作业以使用 Google Cloud DataProc 集群上的所有可用资源?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55262930/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com