CUDA:合并的全局内存访问是否比共享内存快？另外，分配大的共享内存阵列是否会降低程序速度？-6ren

CUDA:合并的全局内存访问是否比共享内存快？另外，分配大的共享内存阵列是否会降低程序速度？

转载作者：行者123 更新时间：2023-12-04 04:45:54

29

4

我在NVIDIA Tesla M2050上发现共享内存的速度没有提高
每个块约有49K共享内存。其实如果我分配
共享内存中的大字符数组会减慢我的程序的速度。例如

__shared__ char database[49000];

给我的运行时间比

__shared__ char database[4900];

该程序仅访问数据库的前100个字符，因此额外的空间
是没有必要的。我不知道为什么会这样。任何帮助，将不胜感激。
谢谢。

最佳答案

当使用较大的阵列时，CUDA共享内存性能相对较差的原因可能与以下事实有关:每个多处理器具有有限数量的可用共享内存。

每个多处理器托管几个处理器；对于现代设备(通常为32个)，扭曲中的线程数。这意味着，在没有差异或内存停顿的情况下，平均处理速率为每个周期32条指令(由于流水线而导致等待时间较长)。

CUDA将几个块调度到一个多处理器。每个块由几个变形组成。当warp在全局内存访问上停顿时(即使合并的访问也具有高延迟)，其他warp也会被处理。这有效地隐藏了延迟，这就是为什么在GPU中可以接受高延迟全局内存的原因。为了有效地隐藏延迟，您需要执行足够的额外扭曲，直到停滞的扭曲可以继续。如果所有扭曲都因内存访问而停滞，则您将无法再隐藏延迟。

共享内存分配给CUDA中的块，并存储在GPU设备上的单个多处理器上。每个多处理器具有相对较小的固定数量的共享内存空间。就共享内存和寄存器使用而言，CUDA不能为多处理器调度比多处理器可以支持的块更多的块。换句话说，如果多处理器上的共享内存量为X，并且每个块需要Y共享内存，则CUDA一次向每个多处理器调度的层数不超过floor(X/Y)个块(这可能会少一些，因为其他限制，例如寄存器使用情况)。

因此，通过增加块的共享内存使用率，您可能会减少内核的事件线程数(占用率)，从而损害性能。您应该使用-Xptxas =“-v”标志进行编译，以查看内核代码。这应该为您提供每个内核的注册，共享和恒定内存使用率。在最新版本的CUDA占用率计算器中，使用此数据和您的内核启动参数以及其他必需的信息来确定您是否可能受到占用率的影响。

编辑:

为了解决您的问题的另一部分，假设没有共享内存库冲突，并且全局内存访问完美合并，那么这个答案有两个方面:延迟和带宽。由于共享内存在芯片上，因此共享内存的延迟将低于全局内存的延迟。带宽将几乎相同。因此，如果您能够通过合并隐藏全局内存访问延迟，则不会有任何损失(请注意:访问模式在这里很重要，因为共享内存允许潜在的更多样化的访问模式，而几乎没有性能损失，因此可以即使您可以隐藏所有全局内存延迟，也可以使用共享内存。

关于CUDA:合并的全局内存访问是否比共享内存快？另外，分配大的共享内存阵列是否会降低程序速度？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9196134/

29

4

0

文章推荐： cryptography - 如何从给定的 GUID 预测下一个 GUID？

文章推荐： R 计算逗号和字符串的数量

文章推荐： deployment - 为什么在调试时包中缺少项目的程序集？

css transition in 快，out 快
这看起来很基础，但我想不通。是否有一种简单的 CSS 唯一方法可以使 cssa 真正快速淡入并缓慢淡出。这是为了改变多个 div 的颜色。大约 0.5 秒的缓入和 2 秒的缓出。谢谢! 最佳答案你
Python+C 比纯 C 快(稍微)快
我一直在用各种语言和实现实现相同的代码(在 Blackjack 中发牌而不爆牌的方法的数量)。我注意到的一个奇怪之处是，Python 在 C 中调用分区函数的实现实际上比用 C 编写的整个程序快一点。
XPath:/比//快？
如果我没看错，/ 意味着它右边的节点必须是左边节点的直接子节点，例如/ul/li 返回 li 项，它们是作为文档根的 ul 项的直接子项。 //ul//li 返回 li 项，它们是文档中某处任何 ul
php - mysql随机更新一列(快)
如何随机更新一个表。所以你给一列一个随机值。并且该列(例如“顶部”)是唯一的。如果您在数字 10 到 20 之间进行选择，并且您有 10 行，那么您就不能有未使用的数字。如果你有 Test table
android - 位图创建和绘制速度慢...快
这在一小部分是一个问题(因为我不明白为什么它会有所不同)，在很大程度上是一篇希望能帮助其他一些可怜的程序员的帖子。我有一个代码库，是我大约 5-7 年前第一次开始 Android 编程时编写的，它具
sql - 为什么自连接比 or 快？
我正在尝试过滤关系表以获得满足两个条件的表子集(即:我想要 color_ids 为 1 或 2 的条目的所有 ID)。这是一张结实的 table ，所以我正在尝试尽可能多地进行优化。我想知道是否有人
聊聊PHP中的 === 运算符为什么比 == 快
在上一篇《聊聊PHP中require_once()函数为什么不好用》中给大家介绍了PHP中require_once()为什么不好用的原因，感兴趣的朋友可以去阅读了解一下~ 那么本文将给大家介绍PH
perl - 为什么 FastCGI 快？
很难说出这里问的是什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或言辞激烈，无法以目前的形式合理回答。如需帮助澄清此问题以便可以重新打开，visit the help center . 10年前关
OpenGL 读取像素的速度比 glReadPixels 快
有没有办法提高glReadPixels的速度?目前我做: Gdx.gl.glReadPixels(0, 0, Gdx.graphics.getWidth(), Gdx.graphics.getHeig
r - 为什么:=比`:=`()快？
通常，我以函数形式`:=`()来计算data.table中的多列，认为这是最有效的方法。但是我最近发现它比简单地重复使用:=慢。至少在我的电脑上。我猜想:=的功能形式可能会产生一些开销，但这是它变慢
.net - 为什么三个线程比 10+ 快
我的问题是针对 Windows 环境中多线程的性能问题。在测试我的代码后，我得到的结果是增加线程数不会提高并行计算的性能，并且在经过一些计数后变得更少。到底是怎么回事？是否可以找出最佳线程数的公式:
C: free() 下一个尺寸无效(快)
我看到很少有相同问题的主题，但我仍然无法解决我的问题。这是我的代码 - 使用 XOR 加密的 C 套接字编程当服务器和客户端连接时:- 用户发送消息，例如:你好- 服务器响应，例如:(服务器):你好
c# - 鼠标移动比重绘 wpf 快
我正在定义继承自 Shape 类并实现“几何”属性的形状。这是一个例子: public class Landmark : Shape { public override bool IsInB
Android 执行代码的速度比 PC 快
相同代码在 Android(1Ghz Snapdragon)上的执行速度比我在 3.3 Ghz Core 2 Duo 的 PC(在桌面应用程序中)快 2 倍(PC 的类被复制到 Android 项目)
php - 比 in_array 快？
我需要将一个值与一组数组进行比较。但是，我需要比较 foreach 中的多个值。如果使用 in_array，它可能会很慢，真的很慢。有没有更快的选择？我当前的代码是 foreach($a as $b)
Java 比 C 快
这个问题在这里已经有了答案: How do I write a correct micro-benchmark in Java? (11 个答案) 关闭 9 年前。今天我做了一个简单的测试来比较
Python 实现比 C 快
如果比较不应该以这种方式进行，我深表歉意。我是编程新手，只是很好奇为什么会这样。我有一个包含词嵌入的大型二进制文件 (4.5gb)。每行都有一个单词，后面跟着它的嵌入，它由 300 个浮点值组成。我
c++ - 为什么我的直接四元数乘法比 SSE 快？
我经历了几个不同的四元数乘法实现，但我很惊讶地发现引用实现是迄今为止我最快的实现。这是有问题的实现: inline static quat multiply(const quat& lhs, cons
c++ - 为什么虚函数调用比 dynamic_cast 快？
我写了一个简单的例子，估计调用虚函数的平均时间，使用基类接口(interface)和dynamic_cast和调用非虚函数。这是它: #include #include #include #in
c++ - 比 Stackwalk 快
有没有人知道比“StackWalk”更好/更快的获取调用堆栈的方法？我还认为 stackwalk 在有很多变量的方法上也会变慢......(我想知道商业分析员是做什么的？)我在 Windows 上使用

首页

博学

6Ren·AI

商城

CUDA:合并的全局内存访问是否比共享内存快？另外，分配大的共享内存阵列是否会降低程序速度？