c++ - CUDA 缩减 - 竞争条件？-6ren

c++ - CUDA 缩减 - 竞争条件？

转载作者：行者123 更新时间：2023-11-30 05:06:05

27

4

请考虑我从教程中获得的以下代码和随附的解释性图像。其目的是演示 CUDA 的并行缩减。

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <iostream>
#include <numeric>
using namespace std;

__global__ void sumSingleBlock(int* d)
{
  int tid = threadIdx.x;

  // Number of participating threads (tc) halves on each iteration
  for (int tc = blockDim.x, stepSize = 1; tc > 0; tc >>= 1, stepSize <<= 1)
  {
    // Thread must be allowed to write
    if (tid < tc)
    {
      // We need to do A + B, where B is the element following A, so first we 
      // need to find the position of element A and of element B      
      int posA = tid * stepSize * 2;
      int posB = posA + stepSize;

      // Update the value at posA by adding the value at posB to it
      d[posA] += d[posB];
    }
  }
}

int main()
{
  cudaError_t status;

  const int count = 8;
  const int size = count * sizeof(int);
  int* h = new int[count];
  for (int i = 0; i < count; ++i)
    h[i] = i+1;

  int* d;
  status = cudaMalloc(&d, size);

  status = cudaMemcpy(d,h,size, cudaMemcpyHostToDevice);

  sumSingleBlock<<<1,count/2>>>(d);

  int result;
  status = cudaMemcpy(&result,d,sizeof(int),cudaMemcpyDeviceToHost);

  cout << "Sum is " << result << endl;

  getchar();

  cudaFree(d);
  delete [] h;

  return 0;
}

现在，我可以理解图中概述的一般归约原理。我不明白的是添加的内容中没有竞争条件 (*):

很明显，所有四个线程将运行相同次数的循环；仅当tid < tc他们会做一些有用的事情吗？线程 #0 将 1 和 2 相加并将结果存储在元素 0 中。它的第二次迭代然后访问元素 2。同时，线程 #1 的第一次迭代将 3 和 4 相加并将结果存储在元素 2 中。

如果线程 #0 在线程 #1 完成迭代 1 之前开始迭代 2 怎么办？这意味着线程 #0 可以读取 3 而不是 7，或者可能是一个撕裂的值(？)这里没有任何同步，所以代码是错误的吗？

(*) 注意:我不确定是否存在竞争条件，我完全相信教程中的安全代码是正确的。

最佳答案

代码有误，需要调用__syncthreads()，如下所示。

__global__ void sumSingleBlock(int* d)
{
  int tid = threadIdx.x;

  // Number of participating threads (tc) halves on each iteration
  for (int tc = blockDim.x, stepSize = 1; tc > 0; tc >>= 1, stepSize <<= 1)
  {
    // Thread must be allowed to write
    if (tid < tc)
    {
      // We need to do A + B, where B is the element following A, so first we 
      // need to find the position of element A and of element B      
      int posA = tid * stepSize * 2;
      int posB = posA + stepSize;

      // Update the value at posA by adding the value at posB to it
      d[posA] += d[posB];
    }
     __syncthreads();
  }
}

关于c++ - CUDA 缩减 - 竞争条件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48103393/

27

4

0

文章推荐： java - 通过 JNI 桥调用时楔形文字库崩溃

文章推荐： c# - SQLite Net PCL 慢 SELECT 查询

c++ - 异步过程调用中的 GetLastError 竞争
假设我正在使用 APC，其中过程和调用代码都使用 SetLastError 和 GetLastError。这会导致 GetLastError 产生不可预测的值。有什么办法可以解决这个问题吗？ VOID
emacs - 哪些现代编辑器与 emacs/vi 竞争？
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 7年前关闭。 Improve t
grails - 服务器端推送(竞争)以填充完整的Calendar事件，而无需在Grails中进行javascript轮询。
任何人都可以，请告诉我，如何在不进行JavaScript轮询/ setInterval的情况下，在完整日历上填充/显示在服务器端动态更新的数据。 grails中提供了Atmosphere插件，但是文档
ios - WKWatchConnectivityRefreshBackgroundTask 与 WCSessionDelegate 竞争
我正在尝试调整我的代码，从仅在前台使用 WCSessionDelegate 回调到在后台通过 handleBackgroundTasks: 接受 WKWatchConnectivityRefreshB
c# - EF 竞争 SaveChanges() 调用
我正在构建批处理系统。单位的批处理数量从 20 到 1000 不等。每个 Unit 本质上都是模型的层次结构(一个主模型和许多子模型)。我的任务涉及将每个模型层次结构作为单个事务保存到数据库中(每
CSS Float/Clear Puzzle(竞争 float )
我拍了一张图片并将其切成三 block ，然后将它们向右浮动，让文字围绕它们流动。 HTML 看起来像这样: 在我添加侧边栏并将其 float 到图像的右上方之前，它工作正常，就像这样... T
linux - 如何在 Linux 中避免共享 IRQ 竞争
我正在考虑嵌入式 Linux 项目(还没有硬件)中即将出现的情况，其中两个外部芯片需要共享一条物理 IRQ 线。这条线在硬件中能够实现边沿触发，但不能实现电平触发中断。查看 Linux 中的共享 i
linux - 竞争 futex 时系统 CPU 使用率高
我观察到，当 linux futexes 发生争用时，系统会在自旋锁上花费大量时间。我注意到即使不直接使用 futex 也是一个问题，但在调用 malloc/free、rand、glib 互斥调用和其
jquery-ui - jQueryUI Tooltips 正在与 Twitter Bootstrap 竞争
我终于能够获得一些工具提示，最终可以使用以下代码: Hover over me 然后 $('[rel=tooltip]').tooltip(); 我遇到的问题是它使用 jQueryUI 工

首页

博学

6Ren·AI

商城

c++ - CUDA 缩减 - 竞争条件？