gpt4 book ai didi

gpu - 重置单个 GPU 的内存使用情况

转载 作者:行者123 更新时间:2023-12-05 04:01:59 47 4
gpt4 key购买 nike

我可以访问 4 个 GPU(不是 root 用户)。其中一个 GPU(2 号)表现怪异,它们的一些内存被阻塞但功耗和温度非常低(好像没有任何东西在上面运行)。请参阅下图中 nvidia-smi 的详细信息: nvidia-smi output

如何在不干扰其他 GPU 上运行的进程的情况下重置 GPU 2?

PS:我不是 root 用户,但我想我也可以掌握一些 root 用户。

最佳答案

重置 GPU 可以以某种方式解决您的问题,由于您的 GPU 配置,这可能是不可能的

nvidia-smi --gpu-reset -i "gpu ID"

例如,如果您使用 gpus 启用了 nvlink,它并不总是通过,而且您的 nvidia-smi 似乎无法找到在您的 gpu 上运行的进程,您的案例的解决方案是找到并杀死通过运行以下命令将进程与该 gpu 相关联,用 fuser 在那里找到的 PID 填写 PID

fuser -v /dev/nvidia*

kill -9 "PID"

关于gpu - 重置单个 GPU 的内存使用情况,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54789664/

47 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com