gpt4 book ai didi

tensorflow - 在 ML Engine 中运行分布式训练的正确方法

转载 作者:行者123 更新时间:2023-12-04 16:01:32 24 4
gpt4 key购买 nike

我正在尝试使用 ML Engine 中的分布式训练作业来训练我的模型(不是使用 tf.estimator 或 tf.keras 构建的)。

我应该采取哪些步骤才能在 ML Engine 中运行分布式训练作业?

我发现了以下准则:

如果前者在命令行中提供,是否意味着我不需要对后者做任何事情,因为 ML Engine 以某种方式负责跨设备分发我的图形?还是我需要两者都做?

还有,如果我使用以下方法手动指定设备会发生什么:

with tf.device('/gpu:0/1/2/etc')

..然后使用 --scale-tier 运行命令?

最佳答案

有两种可能的情况:

- 您想使用带 CPU 的机器:

在这种情况下,你是对的。使用 --scale-tier 参数足以在 ML Engine 中自动分发作业。

您有多个缩放层选项 {1}。

- 您想使用带 GPU 的机器:

在这种情况下,您必须定义一个描述所需 GPU 选项的 config.yaml 文件,并运行 gcloud 命令以将 config.yaml 作为参数 {2} 来启动 ML Engine 作业。

如果您在代码中使用 with tf.device('/gpu:0/1/2/etc'),您将强制使用该设备并覆盖正常行为。 {3}。

{1}:https://cloud.google.com/ml-engine/reference/rest/v1/projects.jobs#scaletier

{2}:https://cloud.google.com/ml-engine/docs/tensorflow/using-gpus#requesting_gpu-enabled_machines

{3}:https://www.tensorflow.org/programmers_guide/using_gpu

关于tensorflow - 在 ML Engine 中运行分布式训练的正确方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50342019/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com