gpt4 book ai didi

python - 如何在多个 GPU 的 Pytorch 示例中利用 DistributedDataParallel 的世界大小参数?

转载 作者:行者123 更新时间:2023-12-01 12:06:18 25 4
gpt4 key购买 nike

我在运行 this Pytorch exampleg2.2xlarge AWS 机器。所以,当我运行 time python imageNet.py ImageNet2 ,它在以下时间运行良好:

real    3m16.253s
user 1m50.376s
sys 1m0.872s

但是,当我添加 world-size 时参数,它会卡住并且不执行任何操作。命令如下: time python imageNet.py --world-size 2 ImageNet2
那么,我如何利用 DistributedDataParallel world-size 的功能此脚本中的参数。 world-size 参数只不过是 分布式进程数 .

我是否为此启动了另一个类似的实例?如果是,那么脚本如何识别实例?我是否需要添加一些参数,例如实例的 IP 之类的?

最佳答案

World size 参数是分布式训练中的节点数,因此如果将 world size 设置为 2,则需要在另一个节点上以不同的等级运行相同的命令。如果只是想增加单个节点上的GPU数量,则需要更改ngpus_per_node反而。看看这个 Readme 中的多节点示例.

关于python - 如何在多个 GPU 的 Pytorch 示例中利用 DistributedDataParallel 的世界大小参数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45674497/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com