gpt4 book ai didi

google-cloud-platform - 如何在 Google Dataproc 上运行两个并行作业

转载 作者:行者123 更新时间:2023-12-04 14:55:32 26 4
gpt4 key购买 nike

我有一项工作需要很长时间才能在 DataProc 上运行。与此同时,我需要能够运行其他较小的工作。

根据我从 Google Dataproc 文档中收集到的信息,该平台应该支持多个作业,因为它使用 YARN 动态分配资源。

但是,当我尝试启动多个作业时,它们会排队,并且在集群空闲之前不会启动。

所有设置均为默认设置。如何启用同时运行的多个作业?

最佳答案

Dataproc 确实支持多个并发作业。但是,它承载多个作业的能力取决于 Yarn 是否具有承载 Application Master(或作业将排队)或实际工作器(或作业将需要很长时间)的可用容量。

您的较大作业将请求的容器数量取决于分区数量。在默认设置下,一个 Dataproc 工作器将支持 2 个 Mapper 或 Reducer 任务。如果您正在处理 100 个文件并且每个文件都是一个分区,则您的整个集群容量现在已分配。

你可以做几件事:

  • 在单独的集群上运行较小的作业。您理想的集群配置是一个作业占据整个集群,或者 N 个作业均匀地共享集群
  • 向您当前的集群添加额外的工作人员和/或使用可抢占的工作人员进行试验(您可以使用 clusters update 命令调整大小,see)
  • (高级)使用不同的 Yarn 调度器进行实验( see 用于带队列的公平调度器)
  • 关于google-cloud-platform - 如何在 Google Dataproc 上运行两个并行作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42206419/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com