gpt4 book ai didi

cuda - 是否可以通过 nvprof (或其他方法)看到内核执行是否发生在 Tensor Core 上?

转载 作者:行者123 更新时间:2023-12-01 19:43:59 31 4
gpt4 key购买 nike

我正在尝试找出 Titan V/V100 上深度学习模型的 GPU 执行性能瓶颈。我了解,要在基于 https://devblogs.nvidia.com/parallelforall/programming-tensor-cores-cuda-9/ 的 Tensor Core 上执行底层内核执行,必须满足某些要求。

“nvprof”提供了一种简单的方法来转储 GPU 上的所有内核执行,但它似乎没有说明是否实际使用了 Tensor Core。这是捕获此类信息的方法吗?

最佳答案

根据these slides NVIDIA 提出的“Training Neural Networks with Mixed Precision”,您可以使用 nvprof 查看是否使用了 Tensor Core。

幻灯片第 12 页实质上是说使用 nvprof 运行程序并查找“884”内核。

例如

$ nvprof python test.py
...
37.024us 1 37.024us 37.024us 37.024us volta_fp16_s884gemm_fp16…

关于cuda - 是否可以通过 nvprof (或其他方法)看到内核执行是否发生在 Tensor Core 上?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47913943/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com