gpt4 book ai didi

CUDA:是否保证合并对全局内存的连续字节的半扭曲访问?

转载 作者:太空宇宙 更新时间:2023-11-04 02:58:24 32 4
gpt4 key购买 nike

我有一个计算能力为 1.3 的 GPU。根据文档,当相同 half-warp 的线程根据字长从相同的 32-64 或 128 字节内存段访问字节时,这些内存访问将合并为一个。

但是,对于使用cudaMallocPitch()分配的二维数组,当同一个half-warp的线程访问连续的字节时,是否保证这些字节驻留在同一个内存段?

CUDA coalesced access to global memory 也有类似的问题但不包括具有 2D 阵列的计算能力 1.3 GPU。

最佳答案

是 - cudaMallocPitch() 的存在主要是为了确保合并行为从一行持续到下一行。合并的标准是按扭曲的,因此它们的粒度要细得多,并且与二维数组的一行中的连续字节有关。

请注意,操作数大小必须至少为 32 位,否则合并根本不起作用。

关于CUDA:是否保证合并对全局内存的连续字节的半扭曲访问?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14901702/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com