gpt4 book ai didi

CUDA:内存性能,什么是全局内存带宽

转载 作者:行者123 更新时间:2023-12-02 07:44:31 29 4
gpt4 key购买 nike

我正在学习 CUDA 优化。我在这个链接上找到了一个演示文稿:Optimizing CUDA by Paulius Micikevicius .

在这个演示中,他们谈论

MAXIMIZE GLOBAL MEMORY BANDWIDTH

,他们说全局内存合并将提高带宽。

我的问题是,您如何计算全局内存带宽。谁能用一个简单的程序示例向我解释。

最佳答案

可以使用硬件规范计算理论带宽。

例如,NVIDIA GeForce GTX 280 使用内存时钟速率为 1,107 MHz 和 512 位宽内存接口(interface)的 DDR RAM。使用这些数据项,NVIDIA GeForce GTX 280 的峰值理论显存带宽为 141.6 GB/秒:

enter image description here

在此计算中,内存时钟速率转换为 Hz,乘以接口(interface)宽度(除以 8,将位转换为字节)并乘以 2,因为双数据速率。最后,将此乘积除以 109,将结果转换为 GB/sec(GBps)。

有效带宽是通过对特定程序事件进行计时并了解程序如何访问数据。为此,请使用以下等式:

有效带宽 = (( Br + Bw )/109 )/时间

这里,有效带宽的单位是GBps,Br是每次读取的字节数内核,Bw 是每个内核写入的字节数,时间以秒为单位。

CUDA 最佳实践指南中提供了更多信息。

关于CUDA:内存性能,什么是全局内存带宽,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7976296/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com