gpt4 book ai didi

TensorFlow 图内复制示例

转载 作者:行者123 更新时间:2023-12-03 17:35:50 37 4
gpt4 key购买 nike

我想在具有多个 ps 和 worker 的多 GPU 集群中试验 TensorFlow 的图内复制。 CIFAR-10 multi GPU example显示在单个机器上的图形同步复制中。有没有可用的示例,我可以引用 example trainer program for between-graph training

最佳答案

一般来说,对于分布式训练,我们更喜欢图间复制而不是图内复制,因为图间复制比图内复制(的当前实现)更具可扩展性。图内复制的主要问题是,它目前需要您为网络构建图结构的多个副本,并在单个位置(即分布式主节点)实现它们。当您有数百个副本时,这会使主服务器成为瓶颈;相比之下,在图间复制中,每个副本只有一个在本地运行的图副本。

图间复制的缺点是它使同步训练更加困难,因为你现在有多个训练循环要同步,而不是一个循环和一个训练操作。 distributed Inception trainer 中使用的 tf.train.SyncReplicasOptimizer提供了一种通过图间复制进行同步训练的方法。

但是,如果您想尝试图内复制,可以通过修改 the line that assigns a device to each of the towers 来实现在 CIFAR-10 示例中。您可以在不同的工作任务中将它们分配给不同的 GPU,而不是将塔分配给同一进程中的不同 GPU。例如:

worker_devices = ["/job:worker/task:0/gpu:0", ..., "/job:worker/task:7/gpu:0"]

for worker_device in worker_devices:
with tf.device(worker_device):
# Execute code for building the model replica.

关于TensorFlow 图内复制示例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39658422/

37 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com