directx - 在 HLSL DirectCompute 着色器中实现自旋锁-6ren

directx - 在 HLSL DirectCompute 着色器中实现自旋锁

转载作者：行者123 更新时间：2023-12-05 02:11:03

25

4

我尝试在计算着色器中实现自旋锁。但是我的实现似乎没有锁定任何东西。

下面是我如何实现自旋锁:

void LockAcquire()
{
    uint Value = 1;

    [allow_uav_condition]
    while (Value) {
        InterlockedCompareExchange(DataOutBuffer[0].Lock, 0, 1, Value);
    };
}

void LockRelease()
{
    uint Value;
    InterlockedExchange(DataOutBuffer[0].Lock, 0, Value);
}

背景:我需要一个自旋锁，因为我必须计算大型二维数组中的数据总和。总和是双倍的。使用单线程和双循环计算总和会产生正确的结果。使用多线程计算总和会产生错误的结果，即使在引入自旋锁以避免计算总和时发生冲突也是如此。

我不能使用 InterLockedAdd，因为总和不适合 32 位整数，而且我使用的是着色器模型 5(编译器 47)。

这是单线程版本，产生了正确的结果:

[numthreads(1, 1, 1)]
void CSGrayAutoComputeSumSqr(
    uint3 Gid  : SV_GroupID,
    uint3 DTid : SV_DispatchThreadID, // Coordinates in RawImage window
    uint3 GTid : SV_GroupThreadID,
    uint  GI   : SV_GroupIndex)
{
    if ((DTid.x == 0) && (DTid.y == 0)) {
        uint2 XY;
        int   Mean = (int)round(DataOutBuffer[0].GrayAutoResultMean);
        for (XY.x = 0; XY.x < (uint)RawImageSize.x; XY.x++) {
            for (XY.y = 0; XY.y < (uint)RawImageSize.y; XY.y++) {
                int  Value  = GetPixel16BitGrayFromRawImage(RawImage, rawImageSize, XY);
                uint UValue = (Mean - Value) * (Mean - Value);
                DataOutBuffer[0].GrayAutoResultSumSqr += UValue;
            }
        }
    }
}

以下是多线程版本。此版本在每次执行时产生相似但不同的结果，IMO 是由不起作用的锁引起的。

[numthreads(1, 1, 1)]
void CSGrayAutoComputeSumSqr(
    uint3 Gid  : SV_GroupID,
    uint3 DTid : SV_DispatchThreadID, // Coordinates in RawImage window
    uint3 GTid : SV_GroupThreadID,
    uint  GI   : SV_GroupIndex)
{
    int  Value  = GetPixel16BitGrayFromRawImage(RawImage, RawImageSize, DTid.xy);
    int  Mean   = (int)round(DataOutBuffer[0].GrayAutoResultMean);
    uint UValue = (Mean - Value) * (Mean - Value);
    LockAcquire();
    DataOutBuffer[0].GrayAutoResultSumSqr += UValue;
    LockRelease();
}

使用的数据:

cbuffer TImageParams : register(b0)
{
    int2   RawImageSize;       // Actual image size in RawImage
}

struct TDataOutBuffer
{
    uint   Lock;                             // Use for SpinLock
    double GrayAutoResultMean;
    double GrayAutoResultSumSqr;
};

ByteAddressBuffer                  RawImage       : register(t0);
RWStructuredBuffer<TDataOutBuffer> DataOutBuffer  : register(u4);

发送代码:

FImmediateContext->CSSetShader(FComputeShaderGrayAutoComputeSumSqr, NULL, 0);
FImmediateContext->Dispatch(FImageParams.RawImageSize.X, FImageParams.RawImageSize.Y, 1);

GetPixel16BitGrayFromRawImage 函数访问 RawImage 字节地址缓冲区，从灰度图像中获取 16 位像素值。它产生了预期的结果。

感谢任何帮助。

最佳答案

您是 XY Problem 的受害者在这里。

让我们从 Y 问题开始。你的自旋锁没有锁定。要了解自旋锁为何不起作用，您需要检查 GPU 如何处理您正在创建的情况。您发出一个由一个或多个线程组组成的经线，每个线程组由许多线程组成。只要执行是并行的，warp 的执行就会很快，这意味着所有进行 warp 的线程(如果您愿意，可以使用 wavefront)必须在 相同的时间执行相同的指令时间。每次插入条件(如算法中的 while 循环)时，您的一些线程必须采用一条路线，而另一些则必须采用其他路线。这称为线程的发散。问题是您不能并行执行不同的指令。

在这种情况下，GPU 可以采用以下两种路线之一:

动态分支 这意味着波前(经线)采用两条路线之一，并停用应该采用另一条路线的线程。然后，它会回滚以拾取它们所在的休眠线程。
扁平分支，这意味着所有线程都执行两个分支，然后每个线程丢弃不需要的结果并保留正确的结果。

现在是有趣的部分:

没有强制转换规则说明 GPU 应该如何处理分支。

您无法预测 GPU 是否会使用一种方法，并且在动态分支的情况下，无法提前知道 GPU 是否会休眠直线路线，其他路线，分支用更少的线程或更多的线程。没有办法提前知道，不同的 GPU 可能会(并且会)以不同的方式执行代码。同一个 GPU 甚至可能会因不同的驱动程序版本而改变其执行方式。

对于自旋锁，您的 GPU(及其驱动程序和您当前使用的编译器版本)很可能会采用平面分支策略。这意味着两个分支都由 warp 的所有线程执行，因此基本上根本没有锁。

如果您更改代码(或在循环之前添加 [branch] 属性)，您可以强制执行动态分支流程。但这不能解决您的问题。在自旋锁的特殊情况下，您要求 GPU 做的是关闭除一个线程外的所有线程。而这并不是 GPU 想要做的。 GPU 将尝试做相反的事情，并关闭唯一以不同方式评估条件的线程。这确实会减少分歧并提高性能……但在您的情况下，它会关闭唯一不在无限循环中的线程。因此，您可能会在无限循环中锁定线程的完整波前，因为唯一可能解锁循环的……正在休眠。您的自旋锁实际上变成了死锁。

现在，在您的特定机器上，该程序甚至可能运行良好。但是您完全零保证该程序可以在其他机器上运行，甚至可以使用不同的驱动程序版本。你更新了驱动程序和繁荣，你的程序突然遇到 GPU 超时并崩溃。

关于 GPU 中自旋锁的最佳建议是……不要使用它们。曾经。

现在让我们回到你的Y问题。

您真正需要的是一种方法来计算大型二维数组中的数据总和。所以您真正需要的是一个好的缩减算法。互联网上有一些，或者您可以自己编写代码，具体取决于您的需要。

如果您需要，我将添加几个链接以帮助您入门。

A Digression on Divergence

NVIDIA - GPU Technology Conference 2010 Slides

Goddeke - Introductory tutorial

Donovan - GPU Parallel Scan

Barlas - Multicore and GPU programming

关于directx - 在 HLSL DirectCompute 着色器中实现自旋锁，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58006663/

25

4

0

文章推荐： vue.js - Vue 产生 "Syntax Error: Assigning to rvalue"

文章推荐： r - 从 RStudio 控制台复制文本为 "plain text"

文章推荐： python - 从 x, y 坐标计算曲线下面积

javascript - 着色/操作文本区域的部分
我必须在文本区域上绘制哪些选项？我认识一些所见即所得的编辑器。我不确定他们使用的方法是什么，并且会看看他们以了解，但我知道像 tinymce 这样的事情已经存在了一段时间，所以我猜现在可能有更现代的
javascript - 在链接内为着色
我在我的 woo commerce 商店页面中创建了一个子类别排序菜单。我想将链接到我现在所在页面的链接设置为红色。我对 css 没有问题，只是用 js 脚本。我怎样才能让它突出当前？这是我创建的排序
python - 如何向我的文本编辑器添加额外的语法突出显示/着色
所以我使用 TextWrangler4.5.3 并主要使用 Python 编写脚本。当我编写 Python 时，我经常喜欢发表类似这样的评论:# BEGINS foo 然后是 # ENDS foo 我
JavaFX 着色 TableCell
我需要你的帮助! 我有一个表格，里面有行(姓名等)现在，当位于该行上的对象具有特定值时，我想为特定的 tableCells 背景着色。但我只得到它来读取这个单元格的值。但我需要阅读对象(在我的代码中称
iphone - UIActionSheet 着色
有人知道在 uikit 中给 uiactionsheet 着色吗？最佳答案是的，因为它是一个 UIView(如 kmit 所述)，您可以使用以下命令:addSubview，因此您可以添加自己的背景
excel - 从单元格中读取颜色为图表 excel 着色
在 vba 中，我想从工作表中的单元格中读取颜色来为条形图中的特定条形着色。我的问题是我的颜色格式为 4F9F92，但要在 makro 中读取它，我需要使用单元格中的 excel 颜色代码 40762
r - 通过渐变为 geom_histogram 着色
我正在尝试绘制一个 geom_histogram，其中条形图由渐变着色。这就是我想要做的: library(ggplot2) set.seed(1) df <- data.frame(id=past
r - 如何在值的右侧而不是左侧为 slider 着色？
我正在构建一个带有 shiny 的应用程序，并使用与 Shiny gallery ( http://shiny.rstudio.com/gallery/slider-bar-and-slider-ra
iphone - 如何为特定的 UIBarButtonItem 着色？
在 iOS 6 和 xcode 4 中，我有这个: https://dl.dropboxusercontent.com/u/60718318/photo.PNG使用代码可以轻松创建 [editButt
iphone - 如何给 UIButton 着色？
我正在向我的 iPhone UI 添加自定义按钮，并希望使它们具有 Apple 应用程序中的玻璃外观。我有一个很好的默认玻璃图像，但我不想为我想要的每种色调(红色、绿色、蓝色等)都有一个单独的图像。
iphone - 如何使用渐变为 UIImage 着色？
我到处寻找但没有找到解决方案。我有图像 1。如何以编程方式使用渐变对它们进行着色以获得图像 2 和 3？以下是这些图像: 我通过 Photoshop 应用到它们的色调是简单的 2 色线性渐变。我的问
macos - NSToolbarItem 的自动样式/着色
有没有办法告诉 OS X 自动设置 NSToolbarItem 的样式/色调？我通过 IB/Xcode 添加了一个“图像工具栏项”，并将图标设置为黑色 PDF as described in the
javascript - 着色 Highcharts 类别
我试图区分列范围图表上的多种类型的数据。问题是我希望能够按多个标准对它们进行分组。我可以轻松地为不同的列着色，从而解决一个问题，但我希望能够根据我传递到图表的数据，为 xAxis 上的类别(图表是倒
shell - 编译模式下的 ANSI 着色
有人在编译模式 Emacs 中添加了对 ansi-color 的支持吗？如果是这样，颜色写入程序必须检查什么属性/属性才能确保其事件终端支持 ANSI 转义着色。最佳答案已经有一个函数可以将颜色应
java - 如何选择光源来实现 Phong 着色？
我正在尝试实现 Phong 着色模型，但我不确定如何选择光源。更具体地说，我不明白光源应该是什么样子。它应该是vec3吗？或者也许是我在 Java 代码中定义的矩阵？另外，如果我们假设我希望相机作为光
sidebar - 为 dhtmlxSidebar 着色
我有 2 个 dhtmlxSidebars，就像示例中一样 here如何为嵌套背景设置不同的背景颜色？如果我添加CSS .dhxsidebar_side { background-color:
java - 排序后重新为 JTable 着色
我有一个 JTable，每行都根据最后一列中的值着色。但是，当我单击标题对行进行排序时，颜色不会跟随行。我尝试在 JTable 鼠标退出事件上调用我的“colourTable”方法(我知道 Hac
r - 如何使用美学为 geom_hline() 着色？
geom_hline 似乎忽略了美观，我错过了什么还是这是一个错误？ df session 信息: R version 3.4.4 (2018-03-15) Platform: x86_64-pc-
java - 如何给 ImageIcon 着色
这个问题已经有答案了: How to draw a BufferedImage with a color tint (1 个回答) 已关闭 8 年前。如何将通过此处的图标着色为不同的颜色？假设我想拍
jquery - 如何为除此之外的所有 div 着色
我想为除我点击的那个之外的所有 div 着色。在我的代码中它有效，但只有一次。如果我点击另一个 div，它不起作用。 http://jsfiddle.net/6VhK8/353/ id="1

首页

博学

6Ren·AI

商城

directx - 在 HLSL DirectCompute 着色器中实现自旋锁