- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
请考虑我从教程中获得的以下代码和随附的解释性图像。其目的是演示 CUDA 的并行缩减。
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <iostream>
#include <numeric>
using namespace std;
__global__ void sumSingleBlock(int* d)
{
int tid = threadIdx.x;
// Number of participating threads (tc) halves on each iteration
for (int tc = blockDim.x, stepSize = 1; tc > 0; tc >>= 1, stepSize <<= 1)
{
// Thread must be allowed to write
if (tid < tc)
{
// We need to do A + B, where B is the element following A, so first we
// need to find the position of element A and of element B
int posA = tid * stepSize * 2;
int posB = posA + stepSize;
// Update the value at posA by adding the value at posB to it
d[posA] += d[posB];
}
}
}
int main()
{
cudaError_t status;
const int count = 8;
const int size = count * sizeof(int);
int* h = new int[count];
for (int i = 0; i < count; ++i)
h[i] = i+1;
int* d;
status = cudaMalloc(&d, size);
status = cudaMemcpy(d,h,size, cudaMemcpyHostToDevice);
sumSingleBlock<<<1,count/2>>>(d);
int result;
status = cudaMemcpy(&result,d,sizeof(int),cudaMemcpyDeviceToHost);
cout << "Sum is " << result << endl;
getchar();
cudaFree(d);
delete [] h;
return 0;
}
现在,我可以理解图中概述的一般归约原理。我不明白的是添加的内容中没有竞争条件 (*):
很明显,所有四个线程将运行相同次数的循环;仅当tid < tc
他们会做一些有用的事情吗?线程 #0 将 1 和 2 相加并将结果存储在元素 0 中。它的第二次迭代然后访问元素 2。同时,线程 #1 的第一次迭代将 3 和 4 相加并将结果存储在元素 2 中。
如果线程 #0 在线程 #1 完成迭代 1 之前开始迭代 2 怎么办?这意味着线程 #0 可以读取 3 而不是 7,或者可能是一个撕裂的值(?)这里没有任何同步,所以代码是错误的吗?
(*) 注意:我不确定是否存在竞争条件,我完全相信教程中的安全代码是正确的。
最佳答案
代码有误,需要调用__syncthreads()
,如下所示。
__global__ void sumSingleBlock(int* d)
{
int tid = threadIdx.x;
// Number of participating threads (tc) halves on each iteration
for (int tc = blockDim.x, stepSize = 1; tc > 0; tc >>= 1, stepSize <<= 1)
{
// Thread must be allowed to write
if (tid < tc)
{
// We need to do A + B, where B is the element following A, so first we
// need to find the position of element A and of element B
int posA = tid * stepSize * 2;
int posB = posA + stepSize;
// Update the value at posA by adding the value at posB to it
d[posA] += d[posB];
}
__syncthreads();
}
}
关于c++ - CUDA 缩减 - 竞争条件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48103393/
假设我正在使用 APC,其中过程和调用代码都使用 SetLastError 和 GetLastError。这会导致 GetLastError 产生不可预测的值。有什么办法可以解决这个问题吗? VOID
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 7年前关闭。 Improve t
任何人都可以,请告诉我,如何在不进行JavaScript轮询/ setInterval的情况下,在完整日历上填充/显示在服务器端动态更新的数据。 grails中提供了Atmosphere插件,但是文档
我正在尝试调整我的代码,从仅在前台使用 WCSessionDelegate 回调到在后台通过 handleBackgroundTasks: 接受 WKWatchConnectivityRefreshB
我正在构建批处理系统。 单位 的批处理数量从 20 到 1000 不等。每个 Unit 本质上都是模型的层次结构(一个主模型和许多子模型)。我的任务涉及将每个模型层次结构作为单个事务保存到数据库中(每
我拍了一张图片并将其切成三 block ,然后将它们向右浮动,让文字围绕它们流动。 HTML 看起来像这样: 在我添加侧边栏并将其 float 到图像的右上方之前,它工作正常,就像这样... T
我正在考虑嵌入式 Linux 项目(还没有硬件)中即将出现的情况,其中两个外部芯片需要共享一条物理 IRQ 线。这条线在硬件中能够实现边沿触发,但不能实现电平触发中断。 查看 Linux 中的共享 i
我观察到,当 linux futexes 发生争用时,系统会在自旋锁上花费大量时间。我注意到即使不直接使用 futex 也是一个问题,但在调用 malloc/free、rand、glib 互斥调用和其
我终于能够获得一些工具提示,最终可以使用以下代码: Hover over me 然后 $('[rel=tooltip]').tooltip(); 我遇到的问题是它使用 jQueryUI 工
我是一名优秀的程序员,十分优秀!