gpt4 book ai didi

python - tensorflow 多 GPU 并行使用

转载 作者:太空宇宙 更新时间:2023-11-03 10:50:30 24 4
gpt4 key购买 nike

我想并行使用 8 个 GPU,而不是按顺序使用。

例如,当我执行这段代码时,

import tensorflow as tf

with tf.device('/gpu:0'):
for i in range(10):
print(i)

with tf.device('/gpu:1'):
for i in range(10, 20):
print(i)

我尝试了 cmd 命令 'CUDA_VISIBLE_DEVICE='0,1' 但结果是一样的。

我想看到结果“0 10 1 11 2 3 12 ....等等”

但实际结果依次为“0 1 2 3 4 5 ..... 10 11 12 13 ..”

我怎样才能得到想要的结果?

最佳答案

** 我看到对问题进行了修改,因此将其添加到我的答案中**

您需要将您的操作传递给 Tensorflow session ,否则,代码将被解释为顺序(就像许多编程语言所做的那样),然后操作将按顺序完成。

对于之前对问题的理解,下面讨论了创建具有多个 GPU 的神经网络训练的讨论:

坏消息是没有神奇的功能可以简单地为您做这件事。

好消息是有一些既定的方法。

第一个是一些 CUDA 和其他 GPU 开发人员熟悉的东西,可以将模型复制到多个 GPU,通过 CPU 同步。一种方法是分批拆分您的数据集,在这种情况下称为塔,然后为每个 GPU 提供一个塔。如果这是 MNIST 数据集,并且您有两个 GPU,则可以显式使用 CPU 作为设备启动此数据。现在,随着您的数据集变小,您的相对批量大小可能会更大。一旦你完成了一个 epoch,你就可以共享梯度和平均值来训练两个网络。当然,这很容易扩展到您使用 8 个 GPU 的情况。

A minimal example CPU 上的任务分配和收集结果如下图所示:

# Creates a graph.
c = []
for d in ['/gpu:2', '/gpu:3']:
with tf.device(d):
a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3])
b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2])
c.append(tf.matmul(a, b))
with tf.device('/cpu:0'):
sum = tf.add_n(c)
# Creates a session with log_device_placement set to True.
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
# Runs the op.
print(sess.run(sum))

但是,在许多设备之间传输数据会阻止您获得正好是 your_gpu_number 倍的加速。因此,您需要针对每个 GPU 优化您的工作负载以最大化您的性能并尽量避免设备间通信。

第二个是将您的神经网络拆分为您拥有的多个设备,训练并合并它们。

在多个 GPU 上显式运行模型将需要您以这种方式设置算法。检查这些:

https://www.tensorflow.org/guide/using_gpu#using_multiple_gpus

https://gist.github.com/j-min/69aae99be6f6acfadf2073817c2f61b0

关于python - tensorflow 多 GPU 并行使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51341998/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com