cuda - __syncthreads() 是否同步网格中的所有线程？-6ren

cuda - __syncthreads() 是否同步网格中的所有线程？

转载作者：行者123 更新时间：2023-12-03 07:31:45

36

4

__syncthreads() 是同步网格中的所有线程还是仅同步当前扭曲或 block 中的线程？

此外，当特定 block 中的线程遇到(在内核中)以下行时

__shared__  float srdMem[128];

他们只会声明这个空间一次(每个 block )吗？

它们显然都是异步操作的，因此如果 block 22 中的线程 23 是第一个到达该行的线程，然后 block 22 中的线程 69 是最后一个到达该行的线程，则线程 69 将知道它已经被声明？

最佳答案

__syncthreads()命令是一个 block 级同步屏障。这意味着当 block 中的所有线程都到达屏障时，可以安全地使用它。也可以使用__syncthreads()在条件代码中，但仅当所有线程对此类代码进行相同的评估时，否则执行可能会挂起或产生意外的副作用 [4] .

使用__syncthreads()的示例:(source)

__global__ void globFunction(int *arr, int N) 
{
    __shared__ int local_array[THREADS_PER_BLOCK];  //local block memory cache           
    int idx = blockIdx.x* blockDim.x+ threadIdx.x;

    //...calculate results
    local_array[threadIdx.x] = results;

    //synchronize the local threads writing to the local memory cache
    __syncthreads();

    // read the results of another thread in the current thread
    int val = local_array[(threadIdx.x + 1) % THREADS_PER_BLOCK];

    //write back the value to global memory
    arr[idx] = val;        
}

要同步网格中的所有线程，当前没有 native API 调用。在网格级别上同步线程的一种方法是使用连续的内核调用，因为此时所有线程都会从同一点结束并重新开始。它通常也称为 CPU 同步或隐式同步。因此它们都是同步的。

使用此技术的示例 ( source ):

CPU synchronization

关于第二问题。是的，它确实声明了每个 block 指定的共享内存量。请考虑到可用共享内存的数量是按SM测量的。因此，人们应该非常小心如何使用共享内存以及启动配置。

关于cuda - __syncthreads() 是否同步网格中的所有线程？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15240432/

36

4

0

文章推荐： eclipse - 将现有文件夹添加到 Eclipse 项目 (STS)

文章推荐： Emacs shell模式: how to send region to shell?

文章推荐： r - 如何获得 R 帮助？

文章推荐： c++ - reinterpret_cast 指向 void(*&)() 的成员函数指针

cuda - __syncthreads() 是否同步网格中的所有线程？
__syncthreads() 是同步网格中的所有线程还是仅同步当前扭曲或 block 中的线程？此外，当特定 block 中的线程遇到(在内核中)以下行时 __shared__ float sr
c - 无法理解 __syncthreads()
书中引述: In CUDA, a __syncthreads() statement , if present must be executed by all threads in a block .
c++ - __syncthreads() 死锁
__syncthreads()如果只有部分线程执行会导致死锁吗？我有一个这样的内核: __global__ void Kernel(int N,int *a) { if(threadIdx.
CUDA 共享内存广播和 __syncthreads 行为
我遇到了一个奇怪的问题，至少对我来说它看起来很奇怪，我希望有人能够阐明它。我有一个 CUDA 内核，它依赖于共享内存来进行快速本地访问。据我所知，如果半束中的所有线程都访问同一个共享内存库，那么该值将
recursion - CUDA __syncthreads() 和递归
我想使用 __syncthreads() 进行递归，例如 __device__ void foo(int k) { if (some_condition) { for (int i=0;i
synchronization - 删除线程后我可以使用 __syncthreads() 吗？
使用是否安全__syncthreads()在我故意使用 return 删除线程的块中? 文档指出 __syncthreads()必须由块中的每个线程调用，否则会导致死锁，但实际上我从未经历过这种行为。
c++ - cuda __syncthreads() 在我的代码中不起作用
情况是这样的。我有一个运行 while 循环的线程 block ，当且仅当这些线程中的任何一个满足某些条件时，我才需要循环继续。为此，我使用一个共享变量作为继续标志，该标志在每次迭代开始时由线程 #
CUDA:__syncthreads() 在 if 语句中
我有一个关于 CUDA 同步的问题。特别是，我需要对 if 语句中的同步进行一些说明。我的意思是，如果我将 __syncthreads() 置于 if 语句的范围内，该语句被 block 内的一小部分
cuda - __syncthreads 在 CUDA 中不工作
我编写了简单的内核来测试 CUDA __syncthreads 的功能。在内核中，如果其他线程看不到更新的值，我已经设法从每个线程打印出来。理想情况下，任何线程都不应打印 Not visible to
cuda - 在 CUDA 扭曲级别减少中删除 __syncthreads()
以下代码将数组中的每个 32 元素相加到每个 32 元素组的第一个元素: int i = threadIdx.x; int warpid = i&31; if(warpid __device__ v
c++ - __syncthreads() 之后的 CUDA 竞赛检查危险
我正在尝试在 CUDA 中并行处理矩阵。我需要根据给定 vector 计算矩阵的每一列，如果结果大于某个值，我将保留该列，否则该列将被删除以进行进一步计算。为了避免复制和重组矩阵，我使用列索引来指示列
c++ - 如果无法在条件分支内调用 __syncthreads，如何减少 CUDA？
还原法suggested by NVIDIA在条件分支中使用 __syncthreads() 例如: if (blockSize >= 512) { if (tid 32; s>>=1) {
c++ - block 的某些线程到达 __syncthreads() 而其中一些不到达是否重要？
这个问题在这里已经有了答案: Can I use __syncthreads() after having dropped threads? (3 个答案) 关闭 8 年前。问题很简单， bloc
c++ - 可以使用 __syncthreads() 合并单独的 CUDA 内核吗？
假设我有这个玩具代码: #define N (1024*1024) #define M (1000000) __global__ void cudakernel1(float *buf) { i
parallel-processing - CUDA __syncthreads() 在 warp 中的使用
如果一个块中的所有线程绝对需要在代码中的同一点，如果启动的线程数等于 warp 中的线程数，我们是否需要 __syncthreads 函数？注意:没有额外的线程或块，内核只有一个扭曲。示例代码:
visual-studio-2010 - CUDA __syncthreads() 编译正常，但带有红色下划线
我已经使用 CUDA 4.2 一周了，但遇到了一些问题。当我编写 __syncthreads() 函数时，它会带有下划线，看起来是错误的...... 然后，如果我将鼠标放在该函数上，则会出现一条消息:
cuda - CUDA 的 __syncthreads() 和 blockIdx.x 的 OpenCL 模拟是什么？
我正在尝试将 CUDA 代码转换为 OpenCL，现在我被这些函数/变量困住了: __syncthreads() blockIdx.x 最佳答案其实是我自己找的!这是一篇有用的文章:http://w
c++ - NVIDA 的 CUDA '__syncthreads()' 在传统 C++ 中的等价物是什么。如何专业地同步线程？
我的应用程序中有 4 个线程。一个是主线程，另外 3 个是工作线程。我希望这 3 个工作线程中的前 2 个生成数据，第 3 个在生成数据时写入数据。数据生成器线程应该是同步的，它们并行运行(同时开始“

首页

博学

6Ren·AI

商城

cuda - __syncthreads() 是否同步网格中的所有线程？