c++ - CUDA、互斥量和 atomicCAS()-6ren

c++ - CUDA、互斥量和 atomicCAS()

转载作者：可可西里更新时间：2023-11-01 18:28:16

24

4

最近开始在CUDA上开发，遇到了atomicCAS()的问题。要在设备代码中对内存进行一些操作，我必须创建一个互斥量，以便只有一个线程可以在代码的关键部分使用内存。

下面的设备代码在 1 个 block 和多个线程上运行。

__global__ void cudaKernelGenerateRandomGraph(..., int* mutex)
{
    int i = threadIdx.x;
    ...

    do 
    {
        atomicCAS(mutex, 0, 1 + i);
    }
    while (*mutex != i + 1);

    //critical section
    //do some manipulations with objects in device memory

    *mutex = 0;

    ...
}

当第一个线程执行时

atomicCAS(mutex, 0, 1 + i);

mutex 为 1。在第一个线程将其状态从 Active 更改为 Inactive 之后，行

*mutex = 0;

未执行。其他线程永远处于循环中。我已经尝试了这个循环的许多变体，比如 while(){};、do{}while();，在循环内使用 temp variable = *mutex，甚至使用 if(){} 和 goto 的变体。但结果是一样的。

宿主部分代码:

...
int verticlesCount = 5;
int *mutex;
cudaMalloc((void **)&mutex, sizeof(int));
cudaMemset(mutex, 0, sizeof(int));
cudaKernelGenerateRandomGraph<<<1, verticlesCount>>>(..., mutex);

我使用带有 CUDA 5.5 的 Visual Studio 2012。

该设备是具有 1.2 计算能力的 NVidia GeForce GT 240。

提前致谢。

更新:今年 Spring 在我的文凭项目上工作了一段时间后，我找到了 cuda 上关键部分的解决方案。这是无锁和互斥机制的组合。这是工作代码。用它来插入原子动态调整大小的数组。

// *mutex should be 0 before calling this function
__global__ void kernelFunction(..., unsigned long long* mutex) 
{
    bool isSet = false; 
    do 
    {
        if (isSet = atomicCAS(mutex, 0, 1) == 0) 
        {
            // critical section goes here
        }
        if (isSet) 
        {
            mutex = 0;
        }
    } 
    while (!isSet);
}

最佳答案

有问题的循环

do 
{
    atomicCAS(mutex, 0, 1 + i);
}
while (*mutex != i + 1);

如果它在主机 (CPU) 端运行，可以正常工作；一旦线程 0 将 *mutex 设置为 1，其他线程将等待直到线程 0 将 *mutex 设置回 0。

但是，GPU 线程并不像 CPU 线程那样独立。 GPU 线程以 32 个为一组进行分组，通常称为 warps。 同一个 warp 中的线程将以完全锁步的方式执行指令。如果诸如 if 或 while 之类的控制语句导致 32 个线程中的某些线程与其余线程分道扬镳，其余线程将等待(即休眠) 为了完成不同的线程。 [1]

回到有问题的循环，线程 0 变为非事件状态，因为线程 1、2、...、31 仍停留在 while 循环中。所以线程 0 永远不会到达 *mutex = 0 行，而其他 31 个线程永远循环。

一个可能的解决方案是制作一个有问题的共享资源的本地拷贝，让 32 个线程修改拷贝，然后选择一个线程将更改“推送”回共享资源。 __shared__ 变量在这种情况下是理想的:它将由属于同一 block 但不属于其他 block 的线程共享。我们可以使用__syncthreads()来精细控制成员线程对该变量的访问。

[1] CUDA Best Practices Guide - Branching and Divergence

Avoid different execution paths within the same warp.

Any flow control instruction (if, switch, do, for, while) can significantly affect the instruction throughput by causing threads of the same warp to diverge; that is, to follow different execution paths. If this happens, the different execution paths must be serialized, since all of the threads of a warp share a program counter; this increases the total number of instructions executed for this warp. When all the different execution paths have completed, the threads converge back to the same execution path.

关于c++ - CUDA、互斥量和 atomicCAS()，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21341495/

24

4

0

文章推荐： c++ - Visual C++ 2010 fatal error C1083；没有权限

文章推荐： c++ - 从 C++ 中的文件读取到行尾？

文章推荐： c++ - 直线运动卡顿

文章推荐： c++ - 我可以有一个 lambda 的 boost 无锁队列吗？

memory - 检查正在运行的程序中的可用 RAM 量
我的一个 friend 在一次求职面试中被要求编写一个程序来测量可用 RAM 的数量。预期的答案是以二进制搜索方式使用 malloc():分配越来越大的内存部分，直到收到失败消息，减少部分大小，然后对
javascript - 堆快照大小远小于使用的 RAM 量
我正在通过任务管理器检查 Chrome 中特定选项卡的内存消耗情况。它显示了我使用的 RAM 量相当大: 但是，当我在开发人员工具中拍摄堆快照时，其显示的大小要小几倍: 怎么会这样呢？最佳答案并非
.net - 以编程方式查找可用的 RAM 量
是否有一种可移植的方式，可以在各种支持的操作系统上同时在 .Net 和 Mono 上运行，让程序知道它运行的机器上有多少 RAM(即物理内存而不是虚拟内存)可用？上下文是一个程序，其内存要求是“请尽
android - 查看项目android中的总 View 量
有谁知道是否有办法查看 android studio 项目中的所有 View 、LinearLayout、TextView 等？我正在使用 android 设备监视器中的层次结构查看器使用 xml
python - 运行外部命令并获取它消耗的 CPU 量
很简单，我想从 Python 脚本中运行外部命令/程序，完成后我还想知道它消耗了多少 CPU 时间。困难模式:并行运行多个命令不会导致 CPU 消耗结果不准确。最佳答案在 UNIX 上: (a)
javascript - 在数组中向前和向后选择 X 量，如果需要循环到开始和结束
我需要在给定数组索引和范围的情况下，在返回新索引的数组中向前循环 X 量并向后循环 X 量。如果循环向前到达数组的末尾，它将在数组的开头继续。如果循环在向后时到达开头，它会在数组末尾继续。例如，数
android - 应用程序中的最大 Activity 量？安卓
Android 应用程序中是否有类似最大 Activity 的内容？我想知道，因为我正在考虑创建具有铃声功能的声音应用程序。它将有大约 40 个 Activity 。但只有 1 个会持续运行。那太多了
ios - UIModalTransitionStylePartialCurl，较少的 curl 量
有什么方法可以限制这种演示文稿的 curl 量吗？我知道系统会根据我们以 taht 方式模态呈现的 viewcontroller View 内的内容自动 curl 。但 thta 在我的 iPad
java - Java 是否有一种可移植的方法来检查最大 RAM 量？
我正在编写一个 Java 应用程序，它需要检查系统中可用的最大 RAM 量(不是 VM 可用的 RAM)。有没有可移植的方式来做到这一点？非常感谢:-) 最佳答案 JMX 您可以访问 java.la
dart - 有没有办法限制 Dart 编辑器使用的 RAM 量？
我发现它使用了 600 MB 的 RAM，甚至超过了 Visual Studio(当它达到 400 MB 的 RAM 时我将其关闭)。最佳答案 dart 编辑器基于 Eclipse，而 Eclips
java - 如何以编程方式检查分配给 JVM 的 RAM 量？
这个问题已经有答案了: Java get available memory (10 个回答) 已关闭 7 年前。假设我有一个专门运行一个程序的 JVM，我如何获得分配给 JVM 的 RAM 量？假
java - 手动增加 Java 应用程序使用的 CPU 量
我刚刚使用 Eclipse 编写了一个程序，该程序需要很长时间才能执行。它花费的时间甚至更长，因为它只将我的 CPU 加载到 25%(我假设这是因为我使用的是四核，而程序只使用一个核心)。有没有办法让
java - 减少 BFS 算法占用的 RAM 量
我编写了一个 2x2x2 魔方求解器，它使用广度优先搜索算法求解用户输入的立方体位置。该程序确实解决了立方体。然而，当我进入一个很难解决的问题时，我会在搜索的深处发现这个问题，我用完了堆空间。我的电脑
linux - 限制 fio 命令使用的 RAM 量？
我正在尝试同步运行多个 fio 线程，但随着线程数量的增加，我的计算机内存不足。似乎每个 fio 线程占用大约 200MB 的 RAM。话虽这么说，有没有办法让每个线程都有一个固定的最大内存使用量？设
python - 确定 sklearn 决策树中的 split 量
我使用“fitctree”函数(链接:https://de.mathworks.com/help/stats/classificationtree-class.html)在 Matlab 中开发了一个
c# - 限制 .NET 进程可以使用的最大 RAM 量？
我有一个 .NET 进程，由于我不会深入探讨的原因，它消耗了大量 RAM。我想要做的是对该进程可以使用的 RAM 量实现上限。有办法做到这一点吗？我找到的最接近的是 Process.GetCurre
xcode - 确定 iOS 设备上的可用 RAM 量
您可能已经看到许多“系统信息”应用程序，它们显示诸如剩余电池生命周期之类的信息，甚至显示内存等系统信息。以类似的方式，是否有任何方法可以从我的应用中检索当前可用 RAM 量，以便我可以更好地决定何时
visual-c++ - MFC 是否仍用于新开发(具有任何 Material 量)？
我从来都不是 MFC 的忠实粉丝，但这并不是重点。我读到微软将在 2010 年发布新版本的 MFC，这让我感到很奇怪 - 我以为 MFC 已经死了(不是恶意，我真的这样做了)。 MFC 是否用于新开发
c++ - 以编程方式获取 OS X 上安装的 RAM 量
我在一台安装了 8 GB 内存的机器上工作，我试图以编程方式确定机器中安装了多少内存。我已经尝试使用 sysctlbyname() 来获取安装的内存量，但它似乎仅限于返回带符号的 32 位整数。 ui
html - 中心 x float 量 : left divs horizontally
基本上，我想要一个由大小相同的 div(例如 100x100)和类似 200x100 的变体构建的页面。它们都 float :向左调整以相应地调整窗口大小。问题是，我不知道如何让它们在那种情况下居中，

首页

博学

6Ren·AI

商城

c++ - CUDA、互斥量和 atomicCAS()