python - Pytorch "NCCL error": unhandled system error, NCCL 版本 2.4.8"-6ren

python - Pytorch "NCCL error": unhandled system error, NCCL 版本 2.4.8"

转载作者：行者123 更新时间：2023-12-04 11:11:49

25

4

我使用pytorch分布式训练我的模型。我有两个节点和每个节点两个gpu，我为一个节点运行代码:

python train_net.py  --config-file configs/InstanceSegmentation/pointrend_rcnn_R_50_FPN_1x_coco.yaml  --num-gpu 2  --num-machines 2 --machine-rank 0 --dist-url tcp://192.168.**.***:8000

和另一个:

python train_net.py  --config-file configs/InstanceSegmentation/pointrend_rcnn_R_50_FPN_1x_coco.yaml  --num-gpu 2  --num-machines 2 --machine-rank 1 --dist-url tcp://192.168.**.***:8000

但是另一个有 RuntimeError 问题

global_rank 3 machine_rank 1 num_gpus_per_machine 2 local_rank 1
global_rank 2 machine_rank 1 num_gpus_per_machine 2 local_rank 0
Traceback (most recent call last):
  File "train_net.py", line 109, in <module>
    args=(args,),
  File "/root/detectron2_repo/detectron2/engine/launch.py", line 49, in launch
    daemon=False,
  File "/root/anaconda3/envs/PointRend/lib/python3.6/site-packages/torch/multiprocessing/spawn.py", line 171, in spawn
    while not spawn_context.join():
  File "/root/anaconda3/envs/PointRend/lib/python3.6/site-packages/torch/multiprocessing/spawn.py", line 118, in join
    raise Exception(msg)
Exception:

-- Process 0 terminated with the following error:
Traceback (most recent call last):
  File "/root/anaconda3/envs/PointRend/lib/python3.6/site-packages/torch/multiprocessing/spawn.py", line 19, in _wrap
    fn(i, *args)
  File "/root/detectron2_repo/detectron2/engine/launch.py", line 72, in _distributed_worker
    comm.synchronize()
  File "/root/detectron2_repo/detectron2/utils/comm.py", line 79, in synchronize
    dist.barrier()
  File "/root/anaconda3/envs/PointRend/lib/python3.6/site-packages/torch/distributed/distributed_c10d.py", line 1489, in barrier
    work = _default_pg.barrier()
RuntimeError: NCCL error in: /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:410, unhandled system error, NCCL version 2.4.8

如果我把mask-rank=1改成mask-rank=0，那么就不会报错，但是不能分布式训练，有谁知道为什么会出现这个错误？

最佳答案

很多原因都可能导致此问题，例如参见 1 , 2 .添加行

import os
os.environ["NCCL_DEBUG"] = "INFO"

到您的脚本将记录导致错误的更具体的调试信息，为您提供更有用的错误消息给谷歌。

关于python - Pytorch "NCCL error": unhandled system error, NCCL 版本 2.4.8"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61075390/

25

4

0

文章推荐： ruby - bundler :无法加载命令:faSTLane

文章推荐： python - 如何使用 PySpark 2.4.5 评估分类器

文章推荐： asp.net-core - 如何在无 View Web API 中配置防伪保护

文章推荐： PostgreSQL 在一个 upsert 语句中多次发生冲突

python - Pytorch "NCCL error": unhandled system error, NCCL 版本 2.4.8"
我使用pytorch分布式训练我的模型。我有两个节点和每个节点两个gpu，我为一个节点运行代码: python train_net.py --config-file configs/Instance
tensorflow - 没有 NCCL 的镜像策略
我是否编写了自定义代码(而不是使用 TensorFlow 中提供的股票示例脚本) : 没有操作系统平台和发行版(例如，Linux Ubuntu 16.04) :Windows 10 x64 从(源代
python - Tensorflow 多 GPU - NCCL
我一直想增加我的批量大小以改善我的模型的泛化(它对批量大小非常敏感)。解决方案是使用多 GPU 以利用更多内存。我在我的脚本中使用 tensorflow.keras(在 Windows 10 上使用
python - TensorFlow Horovod : NCCL and MPI
Horovod正在合并 NCCL并将 MPI 转换为分布式深度学习的包装器，例如 TensorFlow。我以前没有听说过 NCCL，正在研究它的功能。以下是 NVIDIA 网站上关于 NCCL 的说
Distributed package doesn‘t have NCCL built in
Distributed package doesn't have NCCL built in 问题描述： python在windows环境下dist.init_process_group(backen
python - 使用 PyTorch 分布式 NCCL 连接失败
我正在尝试使用 torch.distributed 将 PyTorch 张量从一台机器发送到另一台机器。 dist.init_process_group 函数正常工作。但是，dist.broadcas
pytorch - 错误 : Some NCCL operations have failed or timed out
在 4 个 A6000 GPU 上运行分布式训练时，我收到以下错误: [E ProcessGroupNCCL.cpp:630] [Rank 3] Watchdog caught collective
machine-learning - MXNet 是否使用 Nvidia 的 NCCL 库进行多 GPU 通信？
在 Nvidia 网站上，他们声称 MXNet 使用 NCCL ( https://developer.nvidia.com/nccl )。然而，我还没有从 MXNet 的 github 存储库中找到

首页

博学

6Ren·AI

商城

python - Pytorch "NCCL error": unhandled system error, NCCL 版本 2.4.8"