pytorch - 在 torch 分布式训练中获取本地世界大小-6ren

pytorch - 在 torch 分布式训练中获取本地世界大小

转载作者：行者123 更新时间：2023-12-04 16:40:51

24

4

假设我有 2 台机器，每台机器有 4 个 GPU。假设训练算法的每个实例需要 2 个 GPU。
我想运行 4 个进程，每台机器 2 个，每个进程使用 2 个 GPU。

如何让每个进程检索在同一台机器上运行的本地进程数？
我可以检测到 world size和

torch.distributed.get_world_size()

和 global rank和

torch.distributed.get_rank()

但是，鉴于我不想硬编码参数，有没有办法恢复每个节点上运行 2 个进程的情况？这对我将 GPU 平均分配给每个进程很有用。

示例 : 假设我知道一台机器有 4 个 GPU 并且上面有 2 个进程，我将分配 GPU [0, 1]处理 local rank 0 和 GPU [2, 3]以本地等级 1 进行处理。我知道进程总数，但我无法理解它们是否在同一台机器上，因此我无法决定允许它们使用多少 GPU。

我需要一个名为 torch.distributed.get_local_world_size() 的函数

最佳答案

torch.cuda.device_count()本质上是本地世界大小，可用于确定每个设备上可用的 GPU 数量。如果由于某种原因你不能这样做，使用普通的 MPI 可能会有所帮助

from mpi4py import MPI

comm = MPI.COMM_WORLD
rank = comm.Get_rank() # device rank - [0,1]

torch.cuda.device(i)
ngpus = torch.cuda.device_count()
print(ngpus, " gpus on machine", i) # here's local world size for each process

但我认为只需调用 torch.cuda.device_count() 即可。在任何情况下都无需添加此依赖项。我在这里很新，所以如果可以的话，请告诉我如何改进这个答案。

关于pytorch - 在 torch 分布式训练中获取本地世界大小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61021029/

24

4

0

文章推荐： javascript - 如何在 Context API 中传递路由参数

文章推荐： symfony - 如何在 Symfony2 中终止 session ？

lua - 你好元表.__len 世界
一个关于Lua和元表的初学者问题，以一个简单的Hello-World为例，涉及len事件，不幸的是它没有返回预期的结果(我使用的是从 Ubuntu 官方存储库安装的 Lua 5.1)。案子这是示例
gis - 世界/国家边界的矢量/SVG数据？
我正在开发一个 OpenGL 应用程序。我需要一个地球自转模型(蓝色的水，绿色的土地)。我的问题不是处理 OpenGL/图形……而是处理数据。我在哪里可以获得这些数据？ (各个国家的边界)。如果
opengl - OpenGL中的对象、世界、相机和投影空间
我试图了解在 OpenGL 中创建空间: 对象空间世界空间相机空间投影空间我对这些阶段的理解是否正确？ “立方体”是在笛卡尔坐标系的中心创建的，直接在程序内部输入顶点坐标。坐标转换为“世界”
rust - 是否可以在不直接通过线程本地系统使用“世界”的情况下将一个或多个子代添加到实体？
我有一个Entity和Bundle的Components，我想附加到将成为第一个实体的子实体的实体上。我可以使用Commands生成带有我的组件的实体，但是我无法获得实际的Entity，这意味着我不能
algorithm - 如何生成 "unlimited"世界？
我想创建一个游戏，它有一个无尽的(实际上是一个非常大的)世界，玩家可以在其中移动。我是否会抽出时间来实现游戏是一回事，但我发现这个想法很有趣，并且希望就如何实现它提供一些意见。关键是要有一个所有数据
brainfuck - 你好，世界!在脑筋急转弯
以下代码片段来自维基百科，是标准 Hello World! 的序言! Brainfuck 中的程序... 1. +++++ +++++ initialize counter (
java - LWJGL 创建 3D 世界
就目前情况而言，这个问题不太适合我们的问答形式。我们期望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
javascript - JavaScript 世界，生活在双重 future ？
我正在尝试获取特定日期剩余的确切秒数、分钟数等。这听起来可能很愚蠢，但为什么结果会翻倍呢？这看起来不对，是吗？ setInterval(function() { var startDate =
javascript - 世界/屏幕空间中的 CSS 变换
如果我有两个嵌套元素，假设: Foo 然后我对外部元素应用旋转，假设顺时针旋转 45 度: Foo 现在我想将内部 div 向下移动一点。 Foo http://j
c# - 如何获取已安装的位图编码器/解码器列表(WPF 世界)？
在 WindowsForms 世界中，您可以获得可用图像编码器/解码器的列表 System.Drawing.ImageCodecInfo.GetImageDecoders() / GetImageEn
linux - 迷失在组装 NASM ELF64 世界
因此，作为我的计算机体系结构类(class)的一部分，我需要熟悉 Assembly，或者至少足够舒适，我正在尝试读取用户的输入然后重新打印(暂时)，这是我的我是如何尝试用伪代码来展示它的: 声明 ms
math - 矩阵乘法 - View /投影、世界/投影等
在 HLSL 中有很多矩阵乘法，虽然我了解如何以及在何处使用它们，但我不确定它们是如何导出的或它们的实际目标是什么。所以我想知道是否有在线资源可以解释这一点，我特别好奇将世界矩阵乘以 View 矩阵
jquery - jVectorMap 增加(世界) map 大小
我正在使用 http://jvectormap.owl-hollow.net/ 中的 jVectorMap一切正常。但世界地图的标准尺寸非常小。如果有人想打例如波斯尼亚和黑塞哥维那，他需要大眼镜!有可
haskell - 如何在 Haskell 中建模 2D 世界
我在做游戏。游戏由一个无限平面组成。单位必须在一个离散的正方形上，因此可以使用简单的 Location { x :: Int, y :: Int } 来定位它们。可能有很多种Unit s。有些可能是
java - OpenGL 着色器 - 围绕原点旋转模型(2D 世界)
所以我创建了一个顶点着色器，它接受一个角度并计算旋转。尽管模型围绕世界中心而不是它自己的轴/原点旋转，但存在一个问题。旁注:这是 2D 旋转。如何让模型绕着自己的轴旋转？这是我当前的顶点着色器:
java - OpenGL 着色器 - 围绕原点旋转模型(2D 世界)
所以我创建了一个顶点着色器，它接受一个角度并计算旋转。尽管模型围绕世界中心而不是它自己的轴/原点旋转，但存在一个问题。旁注:这是 2D 旋转。如何让模型绕着自己的轴旋转？这是我当前的顶点着色器:
javascript - 优化 3D 世界 Javascript 动画
我最近萌生了创建标签云的想法，就像地球形状的动画一样。我从 ngdc.noaa.gov 中提取了海岸线坐标，并编写了一个小脚本，将其显示在我的浏览器中。现在您可以想象，整个海岸线由大约 48919 个
c++ - 如何使用 3d 渲染缩放 2d 世界？
我使用 3d 模式渲染我的 2d 游戏，因为相机旋转和放大/缩小比 2d 模式容易得多。现在我遇到了一个我似乎想不出如何解决的问题: 如何使我的世界的 2d 平面以 1 个纹理像素匹配屏幕上的 1
html - 在 Phaser 中，有没有办法清除屏幕或清除游戏阶段/世界？
我正在寻找一种简单快捷的方法来清除整个 Phaser 屏幕，就像在 HTML5 canvas 中，您可以通过将 Canvas 的宽度重置为自身来删除所有内容。我无法通过搜索找到任何此类方法 - 只有
box2d - 如何使用 Box2d 实现 2.5D 世界
是否可以为这样的游戏创建一个 2.5D 世界(双龙)http://www.youtube.com/watch?v=xb9P0YTeq5Y使用box2d？你知道任何工作示例吗？预先感谢您的时间。最

首页

博学

6Ren·AI

商城

pytorch - 在 torch 分布式训练中获取本地世界大小