- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在 Cuda 中,double 的 AtomicAdd 可以使用 while 循环和 AtomicCAS 操作来实现。但是我怎样才能有效地为类型 int3 实现原子添加呢?
最佳答案
经过进一步考虑,我不确定 int3
上的 atomicAdd 与 3 个单独的 atomicAdd
操作有何不同,每个在 int
位置。为什么不这样做呢?
(int3
无论如何都不能作为单个数量加载 in CUDA at the machine level 。编译器保证将其拆分为多个加载,因此尽管异步读取 会有危险int3
,无论如何,无论有没有原子,这种危险都会存在。)
但是要回答您提出的具体问题,使用原子是不可能的。
int3
是 96 位类型。
CUDA 原子仅支持最多 64 位的操作。 Here是 float2
(一种 64 位类型)的原子添加示例,您可以做类似的事情,例如short3
或 short4
。
您也可以使用缩减方法或关键部分。这里有很多关于 SO cuda
标签的问题,讨论了缩减和关键部分。
减少方法可以实现如下:
每个想要对特定 int3
位置进行原子更新的线程使用 this method创建原子更新数量的队列或列表。
列表生成完成后,启动内核执行 parallel reduction在 list 上,从而产生属于该位置的最终减少数量。
关于c++ - 用于 int3 的 Cuda AtomicAdd,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72647540/
我正在GPU上做一个项目,我必须使用atomicAdd()来实现两倍,因为cuda不支持它来实现两倍,因此我使用了NVIDIA提供的以下代码。 __device__ double atomicAdd(
我是 CUDA 新手,第一次使用 CUDA 内核。 我有以下实现卷积的内核(非常天真),带有一个虚拟循环,它在全局内存中对同一元素执行 1000 次计算(见下文)。问题是,运算后,结果矩阵中的某些单元
当我使用 float atomicAdd(float *address, float val) 时添加一个小于约的浮点值。 1e-39至 0 ,加法不起作用,值在address保持为 0。 这是最简单
我有以下 CUDA C 代码: int i = threadIdx.x + blockIdx.x*blockDim.x; int stride = blockDim.x*gridDim.x; w
在以前的 CUDA 版本中,atomicAdd 没有为 doubles 实现,所以实现这个很常见,比如 here .使用新的 CUDA 8 RC,当我尝试编译包含此类函数的代码时遇到了麻烦。我想这是因
atomicAdd 产生错误的结果。我什至在设备中初始化了结果,但仍然无法正常工作。这是为什么? 这是我调用的函数: __global__ void getHammingDistance(char *
在 Cuda 中,double 的 AtomicAdd 可以使用 while 循环和 AtomicCAS 操作来实现。但是我怎样才能有效地为类型 int3 实现原子添加呢? 最佳答案 经过进一步考虑,
我在使用 atomicAdd 时遇到问题在 CUDA 7 下。atomicAdd为“int”、“unsigned int”和“unsigned long long int”定义,声明它使用“32 位或
我有一个代码从 CUDA 示例到 atomicAdd 单个变量 __global__ void myadd(int *data) { unsigned int x = blockIdx.x;
我有一个在两个层面上并行的问题:我有大量的 (x0, x1, y0, y1) 坐标对,它们被转换成变量 vdx, vdy, vyy 并且对于这些集合中的每一个,我都试图计算由它们组成的所有“单项式”的
任何时候我尝试使用 atomicAdd除了 (*int, int) 之外的任何东西我收到此错误: error: no instance of overloaded function "atomicAd
我在尝试编译 caffe 衍生物时收到此错误 DeepLab_v2在带有 Cuda 8.0 的 Ubuntu 14.04.5 上。 有人知道如何解决这个问题吗? DeepLab_v2 在另一台装有 C
我的 CUDA 程序中出现未知错误,它似乎与 atomicadd 函数有关。我在 Visual Studio 2015 上的 Windows 上进行编码。我的调用函数指定如下 int regionWi
我试图在 Visual Studio 2010 下用 CUDA 4.2 编译一些 CUDA 代码(我使用 Parallel Nsight 2.2 创建了这个 CUDA 项目),但我遇到了一个原子问题“
我是一名优秀的程序员,十分优秀!