gpt4 book ai didi

cuda - nvidia-smi GPU 性能测量没有意义

转载 作者:行者123 更新时间:2023-12-03 23:24:26 31 4
gpt4 key购买 nike

我正在使用 Nvidia GTX Titan X 做深度学习实验。
我正在使用 nvidia-smi 来监控 GPU 运行状态,但是该工具提供的 perf(ormance) 状态没有意义。

我查看了 nvidia-smi 手册,上面写着:

Performance State The current performance state for the GPU. States range from P0 (maximum performance) to P12 (minimum performance).



在 GPU 上不运行任何进程(空闲状态),GPU 性能状态为 p0。
但是,当运行一些计算量大的进程时,状态变为 p2。

我的问题是,为什么我的 GPU 在空闲时处于 P0 状态,但在运行繁重的计算任务时切换到 P2?不应该是相反的吗?

另外,有没有办法让我的 GPU 始终运行在 P0 状态(最高性能)?

最佳答案

这令人困惑。

但是,nvidia-smi 手册是正确的。

当一个 GPU 或一组 GPU 空闲时,运行 nvidia-smi 的进程在机器上通常会使其中一个 GPU 脱离空闲状态。这是由于该工具正在收集的信息 - 它需要唤醒其中一个 GPU。

此唤醒过程最初会将 GPU 带到 P0 状态(最高性能状态),但 GPU 驱动程序将监视该 GPU,并最终开始降低性能状态以节省电力,如果 GPU 空闲或不是特别忙。

另一方面,当 GPU 在工作负载上处于事件状态时,GPU 驱动程序将根据自己的启发式方法,不断调整性能状态以提供最佳性能,同时将性能状态与实际工作负载相匹配。如果未达到热或功率限制,则性能状态应达到其最高水平 (P0),以用于最活跃和最繁重的连续工作负载。

周期性繁重但不连续的工作负载可能会看到 GPU 电源状态在 P0-P2 级别左右波动。由于热(温度)或电源问题而“节流”的 GPU 也可能会看到 P 状态降低。这种类型的限制很明显,并且在 nvidia-smi 中单独报告,但这种类型的报告可能并非对所有 GPU 类型都启用。

如果您想查看 GPU 上的 P0 状态,我能提供的最佳建议是运行一个短暂、繁重、连续的工作负载(例如,执行大型 sgemm 操作的工作),然后在该工作负载期间监控 GPU。在那种情况下应该可以看到 P0 状态。

如果您正在使用使用 cuDNN 库的机器学习应用程序(例如 Caffe),并且您正在训练一个大型网络,则应该可以不时看到 P0,因为 cuDNN 执行类似于 sgemm 的操作场景,通常。

但是对于零星的工作负载,最常观察到的状态很可能是 P2。

要始终“强制”P0 电源状态,您可以尝试通过 nvidia-smi 尝试持久模式和应用程序时钟。工具。使用nvidia-smi --help或 nvidia-smi 的手册页以了解这些选项。

尽管我认为这通常不适用于 Tesla GPU,但某些 NVIDIA GPU 可能会在计算负载下将自身限制为 P2 电源状态,除非应用程序时钟专门设置得更高。使用 nvidia-smi -a命令查看当前应用程序时钟、默认应用程序时钟和 GPU 可用的最大时钟。 (某些 GPU,包括较旧的 GPU,可能会在其中某些字段显示 N/A。这通常表明应用程序时钟无法通过 nvidia-smi 修改。)如果卡在计算负载期间似乎以 P2 状态运行,您可以能够通过将应用程序时钟增加到最大可用时钟(即 Max Clocks)将其增加到 P0 状态。使用nvidia-smi --help了解如何格式化命令以更改 GPU 上的应用程序时钟。修改应用程序时钟或启用可修改的应用程序时钟可能需要 root/admin 权限。也可能需要或必须设置 GPU 持久性模式。这将防止驱动程序在 GPU 事件期间“卸载”,这可能会导致在重新加载驱动程序时重置应用程序时钟。

对于在这种情况下受影响的卡,在计算负载下限制为 P2 的这种默认行为是由 GPU 驱动程序设计的。

This一些相关的问题/答案也可能是有趣的。

关于cuda - nvidia-smi GPU 性能测量没有意义,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30663524/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com