CUDA 线程寻址((threadIdx.x, threadIdx.y, threadIdx.z)和 block 寻址(blockidx.x, blockidx.y)-6ren

CUDA 线程寻址((threadIdx.x, threadIdx.y, threadIdx.z)和 block 寻址(blockidx.x, blockidx.y)

转载作者：行者123 更新时间：2023-12-04 22:47:55

26

4

我只需要澄清一些非常基本的东西 - 大多数计算示例都使用以下内容:

ID = blockIdx.x*blockDim.x+threadIdx.x；

//...然后对数组[ID]进行计算

我的问题是，如果我想在一个块中使用最大线程数(1024)，那么我是否真的需要考虑所有( threadIdx.x 、 threadIdx.y 、 threadIdx.z )来“构建”我的“线程ID”？ ) ?

如果是这样，将它散列成单个值的推荐方法是什么？

如果不是这样，为什么有人可以在与图像处理相关的操作中以类似的方式使用它，例如在这篇文章中:

https://stackoverflow.com/questions/11503406/cuda-addressing-a-matrix

怎么样blockidx.x和 blockidx.y ，他们和threaIdx 是同款鞋吗？在这方面？

最佳答案

通常会创建 2D 或 3D 线程块，因为问题本身会导致数据的 2D 或 3D 解释，而使用 2D 或 3D 线程块处理它可能会使代码更具可读性。但是没有具体的原因为什么它不能用具有适当索引的一维线程块来完成。

创建 2D 或 3D 网格(块的)通常是出于上述原因和/或为了绕过在网格的任何一个维度中的块数量(任何维度中的最大块数为 65535)的预 CC 3.0 设备的限制)。

对于线程块情况，您可以在单个维度的单个块中使用 1024 个线程，因此您无需使用 threadIdx.y 构造 ID 变量。或 threadIdx.z如果你不想。

如果您有 CC 3.0 之前的设备，并且您的问题在块方面足够大，您可能仍想构建一个 2D 网格。您仍然可以在该网格中使用一维线程块。在这种情况下，可以创建一个唯一的 ID 变量，如:

 int idx = threadIdx.x + (((gridDim.x * blockIdx.y) + blockIdx.x)*blockDim.x);

上面的构造应该处理具有任何 2D 网格的 1D 线程块。

除了构建 2D 网格来处理大型问题之外，还有其他方法，例如让您的块在某种循环中处理多个数据块。

关于CUDA 线程寻址((threadIdx.x, threadIdx.y, threadIdx.z)和 block 寻址(blockidx.x, blockidx.y)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16403972/

26

4

0

文章推荐： ffmpeg - 将元标记设置为 .ts 文件

文章推荐： PHPStorm - 在检查时显示所有错误

文章推荐： java - 在 Spring 中使用带有 WebServiceGatewaySupport 的 SOAP 1.2

CUDA 线程寻址((threadIdx.x, threadIdx.y, threadIdx.z)和 block 寻址(blockidx.x, blockidx.y)
我只需要澄清一些非常基本的东西 - 大多数计算示例都使用以下内容: ID = blockIdx.x*blockDim.x+threadIdx.x； //...然后对数组[ID]进行计算我的问题是，如
CUDA gridDim、blockDim 和 threadIdx
这是一个概念性问题。在 CUDA 中，gridDim、blockDim 和 threadIdx 可以是 1D、2D 或 3D。我想知道他们的2D和3D版本是如何解释的？更详细地说，CUDA是否将多维
c++ - LNK2001 : unresolved external symbol threadIdx
我正在进入 C++/Cuda 并在“MortalityTable.obj”中遇到编译错误“未解析的外部符号 threadIdx”。我创建了一个新的 C++ Cuda Runtime 项目，然后编译并
c++ - Visual Studio 无法识别 CUDA 的 "ThreadIdx"
这个问题在这里已经有了答案: How to get VS 2010 to recognize certain CUDA functions (2 个答案) 关闭 9 年前。 Visual Studi
c++ - CUDA channel ID 与基于 threadIdx.x 的计算
通过 cub::LaneId() 或类似以下的函数来解释是最简单的: inline __device__ unsigned get_lane_id() { unsigned ret; asm
c++ - CUDA channel ID 与基于 threadIdx.x 的计算
通过 cub::LaneId() 或类似以下的函数来解释是最简单的: inline __device__ unsigned get_lane_id() { unsigned ret; asm
使用 gcc 编译 cuda 结果为 : error: ‘threadIdx’ undeclared
如何强制 GCC 使用代码中的 threadIdx 行进行编译？我正在尝试使用 c 包装器编译我的 cuda 应用程序。为了生成 .so 文件，我运行:nvcc -arch=sm_11 -o li
c++ - CUDA C++ 链接错误 undefined reference threadIdx.x
您好，您正在尝试在 CUDA 上并行化格子玻尔兹曼求解器。不知何故，我在将目标文件链接在一起时遇到错误。对象编译没有错误。 LBMSolver.o: In function >LBMSolver::c
CUDA 到 OpenCL : What is the equivalent of (blockIdx. x + blockIdx.y*gridDim.x) * openCL 中的 blockDim.x + threadIdx.x？
我是 OpenCL 的初学者，试图将一个简单的 CUDA 函数转换为 OpenCL。在 CUDA 函数中，他们使用以下代码段来获取操作索引， int id = (blockIdx.x + blockI

首页

博学

6Ren·AI

商城

CUDA 线程寻址((threadIdx.x, threadIdx.y, threadIdx.z)和 block 寻址(blockidx.x, blockidx.y)