gpt4 book ai didi

CUDA:我能知道我是否有全局内存合并吗?

转载 作者:行者123 更新时间:2023-12-04 06:21:12 29 4
gpt4 key购买 nike

我使用的是 GeForce GTX 580(计算能力 2.0)。

在我的程序中,我怀疑瓶颈是访问内核中的全局内存。我怀疑这是因为所有计算都涉及通过索引存储在全局内存中的数组获得的数字,并且因为从 double 切换到单精度只会将性能提高 10%。 (如果浮点运算是瓶颈(?),那么费米设备的速度应该是其两倍)

所以为了改善这个瓶颈,我想到了内存合并。这里的问题是我不知道我是否实现了它。要么我已经拥有它,而且它已经足够好了(比 intel i7 上的顺序版本快 25 倍),或者我可能会通过某种方式重写以获得合并来让它运行得更快。

但是有办法知道吗?我可以以某种方式“关闭”合并以找出答案,还是以其他方式找出答案?

最佳答案

CUDA Visual profiler 会在汇总表中显示每个内核的加载/存储效率; Grizzly 给出了一个很好的答案,说明这在较新的卡片中是如何变化的:Compute Prof's fields for incoherent and coherent gst/gld? (CUDA/OpenCL)

关于CUDA:我能知道我是否有全局内存合并吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6534907/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com