gpt4 book ai didi

cuda - 如何选择非繁忙的 CUDA 设备?

转载 作者:行者123 更新时间:2023-12-04 04:54:08 25 4
gpt4 key购买 nike

我正在一个有很多节点的集群上工作,每个节点都有两个 gpu。在集群中,我无法启动“nvidia-smi”来检查哪个设备正忙。我的代码根据功能选择了最佳设备(使用 cudaChooseDevice),但是当集群为两个不同的作业分配同一个节点时,我有两个任务在同一个 gpu 上运行。

我的问题是:有没有办法在运行时检查设备是否忙?

谢谢

最佳答案

您的集群管理员应该安装和使用集群管理(作业调度)软件,让他们能够像 CPU 和内存一样分配和跟踪 GPU。有许多作业调度程序可以做到这一点。即使作业调度程序中没有明确的 GPU 支持,也可以构建将正确分配 GPU 的作业进入/退出脚本。

您可以有效地包含与 nvidia-smi 相同的功能。通过嵌入使用 NVML在您的应用程序中。 nvidia-smi 报告的任何查询或数据项都可以通过 NVML 以编程方式访问。

我也不清楚为什么你不能为你的工作启动一个脚本来检查哪些设备正忙于使用 nvidia-smi ,然后选择一个不忙的设备。

但请记住,您可能进行的任何运行时检查都会受到其他应用程序行为的影响。如果这些应用程序(无论是由您还是其他用户启动)有异常行为,您的运行时检查很容易被击败。

关于cuda - 如何选择非繁忙的 CUDA 设备?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17015070/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com