memory - 了解 CUDA 中的内存使用情况-6ren

memory - 了解 CUDA 中的内存使用情况

转载作者：行者123 更新时间：2023-12-02 03:56:27

26

4

我有一个 NVIDIA GTX 570 显卡，在 Ubuntu 10.10 系统 上运行 em>Cuda 4.0。

我知道为了性能，我们需要高效地访问内存，巧妙地使用设备上的register和shared内存。

但是我不明白如何计算每个线程可用的寄存器数量，或者单个 block 可以使用多少共享内存以及其他针对特定内核配置的简单/重要计算。

我想通过一个明确的例子来理解这一点。顺便说一下，我目前正在尝试编写一个粒子代码，其中一个内核应该如下所示。

每个 block 都是一个1-D线程集合，每个网格是一个1-D block 的集合。

block 数:16384
每个 block 的线程数:32(=> 总线程数 32*16384 = 524288)
每个线程 block 被赋予一个 32 x 32 共享内存的二维整数数组一起工作。

在一个线程中，我想存储一些double 类型的数字。但我不确定我可以存储多少这样的 double 数字，而不会有任何寄存器溢出到本地内存(在设备上)。谁能告诉对于此内核配置，每个线程可以存储多少个 double 值？

我的每个 block 的共享内存的上述配置是否有效？

关于如何推断这些东西的示例计算将非常具有说明性和帮助性

这是关于我的 GTX 570 的信息:(使用来自 CUDA-SDK 的 deviceQuery)

[deviceQuery] starting...
./deviceQuery Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

Found 1 CUDA Capable device(s)

    Device 0: "GeForce GTX 570"
      CUDA Driver Version / Runtime Version          4.0 / 4.0
      CUDA Capability Major/Minor version number:    2.0
      Total amount of global memory:                 1279 MBytes (1341325312 bytes)
      (15) Multiprocessors x (32) CUDA Cores/MP:     480 CUDA Cores
      GPU Clock Speed:                               1.46 GHz
      Memory Clock rate:                             1900.00 Mhz
      Memory Bus Width:                              320-bit
      L2 Cache Size:                                 655360 bytes
      Max Texture Dimension Size (x,y,z)             1D=(65536), 2D=(65536,65535), 3D=(2048,2048,2048)
      Max Layered Texture Size (dim) x layers        1D=(16384) x 2048, 2D=(16384,16384) x 2048
      Total amount of constant memory:               65536 bytes
      Total amount of shared memory per block:       49152 bytes
      Total number of registers available per block: 32768
      Warp size:                                     32
      Maximum number of threads per block:           1024
      Maximum sizes of each dimension of a block:    1024 x 1024 x 64
      Maximum sizes of each dimension of a grid:     65535 x 65535 x 65535
      Maximum memory pitch:                          2147483647 bytes
      Texture alignment:                             512 bytes
      Concurrent copy and execution:                 Yes with 1 copy engine(s)
      Run time limit on kernels:                     Yes
      Integrated GPU sharing Host Memory:            No
      Support host page-locked memory mapping:       Yes
      Concurrent kernel execution:                   Yes
      Alignment requirement for Surfaces:            Yes
      Device has ECC support enabled:                No
      Device is using TCC driver mode:               No
      Device supports Unified Addressing (UVA):      Yes
      Device PCI Bus ID / PCI location ID:           2 / 0
      Compute Mode:
         < Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >

    deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 4.0, CUDA Runtime Version = 4.0, NumDevs = 1, Device = GeForce GTX 570
    [deviceQuery] test results...
    PASSED

    Press ENTER to exit...

最佳答案

所以，内核配置有点复杂。你应该使用 CUDA OCCUPANCY CALCULATOR .另一方面，你必须研究扭曲是如何工作的。一旦一个 block 被分配给一个 SM，它就会被进一步划分为 32 个线程单元，称为 warp。可以说，warp 是 SM 中的一个线程调度单元。对于给定的 block 大小和分配给每个 SM 的给定 block 数，我们可以计算驻留在 SM 中的扭曲数。在你的例子中，一个 warp 包含 32 个线程，所以如果你有一个包含 256 个线程的 block ，那么你有 8 个 warp。现在选择正确的内核设置取决于您的数据和操作，请记住您必须完全占用一个 SM，即:您必须在每个 SM 中获得完整的线程容量以及用于调度长延迟操作的最大 warp 数量.另一件重要的事情是不要超过每个 block 的最大线程数限制，在您的情况下为 1024。

关于memory - 了解 CUDA 中的内存使用情况，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12380138/

26

4

0

文章推荐： android-layout - android ImageView缩放以适合另一个 View

文章推荐： maven - mvn 部署到 AWS(通过 distributionManagement ssh)

文章推荐： asp.net - 无法使用前导 .. 退出顶级目录错误

以太坊DAPP——了解
我开始在 Ethereum blockchain 上了解如何开发智能合约以及如何写 web-script用于与智能合约交互(购买、销售、统计......)我得出了该怎么做的结论。我想知道我是否正确理解
uiview - 了解 CATransform3D
我正在 UIView 中使用 CATransform3DMakeRotation，并且我正在尝试进行 45º，变换就像向后放置一样: 这是我拥有的“代码”，但显然没有这样做。 CATransform3
webrtc - 了解 WebRTC
我目前正在测试 WebRTC 的功能，但我有一些脑逻辑问题。 WebRTC 究竟是什么？我只读了“STUN”、“P2P”和其他...但是在技术方面什么是正确的 WebRTC(见下一个) 我需要什么
scala - 了解 DelayedInit
我在看 DelayedInit在 Scala in Depth ... 注释是我对代码的理解。下面的 trait 接受一个非严格计算的参数(由于 => )，并返回 Unit .它的行为类似于构造函数
wcf - 了解 WCF
谁能给我指出一个用图片和简单的代码片段解释 WCF 的资源。我厌倦了谷歌搜索并在所有搜索结果中找到相同的“ABC”文章。最佳答案 WCF 是一项非常复杂的技术，在我看来，它的文档记录非常少。启动和运
haskell - 了解 `getArgs`
我期待以下 GetArgs.hs打印出传递给它的参数。 import System.Environment main = do args main 3 4 3 :39:1: Coul
opengl - 了解 glVertexAttribPointer？
private int vbo; private int ibo; vbo = glGenBuffers(); ibo = glGenBuffers(); glBindBuffer(GL_ARRAY_
loops - 了解 For 循环
我正在尝试一个 for 循环。我添加了一个 if 语句以在循环达到 30 时停止循环。我见过i <= 10将运行 11 次，因为循环在达到 10 次时仍会运行。如果有设置 i 的 if 语句，为什
wsgi - 了解 WSGI
我正在尝试了解 WSGI 的功能并需要一些帮助。到目前为止，我知道它是一种服务器和应用程序之间的中间件，用于将不同的应用程序框架(位于服务器端)与应用程序连接，前提是相关框架具有 WSGI 适配器。
javascript - 了解 while 循环
我是 Javascript 的新手，我正在尝试绕过 while 循环。我了解它们的目的，我想我了解它们的工作原理，但我在使用它们时遇到了麻烦。我希望 while 值自身重复，直到两个随机数相互匹配。
fabric - 了解 Fabric
我刚刚偶然发现Fabric并且文档并没有真正说明它是如何工作的。我有根据的猜测是您需要在客户端和服务器端都安装它。 Python 代码存储在客户端，并在命令运行时通过 Fabric 的有线协议(pr
.net - 了解 ConditionalWeakTable
我想了解 ConditionalWeakTable .和有什么区别 class ClassA { static readonly ConditionalWeakTable OtherClass
process - 了解 Scrum
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 5年前关闭。 Improve this questi
iphone - 了解 UIPickerView
我还没有成功找到任何可以引导我理解 UIPickerView 和 UIPickerView 模型的好例子。有什么建议吗？最佳答案为什么不使用默认的 Apple 文档示例？这是来自苹果文档的名为 U
haskell - 了解 `foldM`
我在看foldM为了获得关于如何使用它的直觉。 foldM :: Monad m => (a -> b -> m a) -> a -> [b] -> m a 在这个简单的例子中，我只返回 [Just
c++ - 了解 `_mm_prefetch`
答案What are _mm_prefetch() locality hints?详细说明提示的含义。我的问题是:我想要哪一个？我正在处理一个被重复调用数十亿次的函数，其中包含一些 int 参数。
.net - 了解 gcroot
我一直在读这个article了解 gcroot 模板。我明白 gcroot provides handles into the garbage collected heap 然后 the handle
debezium - 了解 Debezium
提供了一个用例: 流处理架构；事件进入 Kafka，然后由带有 MongoDB 接收器的作业进行处理。数据库名称:myWebsite集合:用户并且作业接收 users 集合中的 user 记录。
filesystems - 了解 NFS
你好我想更详细地了解 NFS 文件系统。我偶然发现了《NFS 图解》这本书，不幸的是它只能作为谷歌图书提供，所以有些页面丢失了。有人可能有另一个很好的资源，这将是在较低级别上了解 NFS 的良好开始
math - 了解 "randomness"
我无法理解这个问题，哪个更随机？ rand() 或: rand() * rand() 我发现这是一个真正的脑筋急转弯，你能帮我吗？编辑: 凭直觉，我知道数学答案是它们同样随机，但我忍不住认为，如果您

首页

博学

6Ren·AI

商城

memory - 了解 CUDA 中的内存使用情况