cuda - 为什么我的 CUDA warp shuffle sum 在一个洗牌步骤中使用了错误的偏移量？-6ren

cuda - 为什么我的 CUDA warp shuffle sum 在一个洗牌步骤中使用了错误的偏移量？

转载作者：行者123 更新时间：2023-12-05 05:38:28

编辑: 我已将此作为错误提交到 https://developer.nvidia.com/nvidia_bug/3711214 .

我正在编写一个数值模拟程序，该程序在 Release模式下给出了微妙的错误结果，但在 Debug模式下却给出了看似正确的结果。原始程序使用 curand 进行随机采样，但我已将其简化为更简单且更具确定性的 MVCE，它启动 1 个 block * 1 个扭曲(32 个线程)的单个内核，其中每个线程:

使用可能会变得扭曲发散的循环执行计算，尤其是在接近尾声时，因为一些线程先于其他线程完成任务。
将线程重新同步。
尝试与 warp 中的其他线程对数据进行蝶式洗牌以获得单个总和。
[在 MVCE 中不需要]线程 0 会将总和写回全局内存，以便可以将其复制到主机

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>


__global__ void test_kernel()
{

    int cSteps = 0;
    int cIters = 0;
    float pos = 0;

    //curandState localState = state[threadIdx.x];

    while (true) {
        float rn = threadIdx.x * 0.01 + 0.001;
        pos += rn;
        cSteps++;
        if (pos > 1.0f) {
            pos = 0;
            cIters++;
            if (cSteps > 1024) {
                break;
            }
        }
    }

    printf(" 0: Th %d cI %d\n", threadIdx.x, cIters);
    __syncthreads();
    cSteps += __shfl_xor_sync(0xffffffff, cSteps, 1, 32);
    cIters += __shfl_xor_sync(0xffffffff, cIters, 1, 32);

    printf(" 1: Th %2d cI %d\n", threadIdx.x, cIters);
    cSteps += __shfl_xor_sync(0xffffffff, cSteps, 2, 32);
    cIters += __shfl_xor_sync(0xffffffff, cIters, 2, 32);

    printf(" 2: Th %2d cI %d\n", threadIdx.x, cIters);

    cSteps += __shfl_xor_sync(0xffffffff, cSteps, 4, 32);
    cIters += __shfl_xor_sync(0xffffffff, cIters, 4, 32);

    printf(" 4: Th %2d cI %d\n", threadIdx.x, cIters);

    cSteps += __shfl_xor_sync(0xffffffff, cSteps, 8, 32);
    cIters += __shfl_xor_sync(0xffffffff, cIters, 8, 32);

    printf(" 8: Th %2d cI %d\n", threadIdx.x, cIters);

    cSteps += __shfl_xor_sync(0xffffffff, cSteps, 16, 32);
    cIters += __shfl_xor_sync(0xffffffff, cIters, 16, 32);

    printf("16: Th %2d cI %d\n", threadIdx.x, cIters);
}

int main()
{
    test_kernel <<<1, 32>>> ();
    return 0;
}

在 Debug模式下，随机播放按预期工作。我看到每个线程都以自己的值开始:

 0: Th 0 cI 2
 0: Th 1 cI 12
 0: Th 2 cI 22
 0: Th 3 cI 32
 0: Th 4 cI 41
// ...

在第一次洗牌 xor 1 后，每对线程都同意相同的数字:

 1: Th  0 cI 14
 1: Th  1 cI 14
 1: Th  2 cI 54
 1: Th  3 cI 54

在 shuffle xor 2 之后，每组四个线程同意:

 2: Th  0 cI 68
 2: Th  1 cI 68
 2: Th  2 cI 68
 2: Th  3 cI 68
 2: Th  4 cI 223
 2: Th  5 cI 223
 2: Th  6 cI 223
 2: Th  7 cI 223

等等。在最后一次洗牌之后，warp 中的所有线程都同意相同的值 (4673)。

一旦我启用 Release模式，我得到的结果是微妙的垃圾。进入随机播放的值是相同的，第一轮随机播放后的值与调试版本一致(并且与之前一样在每一对内一致)。一旦我执行 shuffle xor 2，结果就会崩溃:

 2: Th  0 cI 28
 2: Th  1 cI 28
 2: Th  2 cI 108
 2: Th  3 cI 108
 2: Th  4 cI 186
 2: Th  5 cI 186
 2: Th  6 cI 260
 2: Th  7 cI 260

事实上，如果洗牌序列被这个特定损坏的序列替换，这就是调试构建(和手工检查)将产生的确切输出:

    printf(" 0: Th %d cI %d\n", threadIdx.x, cIters);
    __syncthreads();
    cSteps += __shfl_xor_sync(0xffffffff, cSteps, 1, 32);
    cIters += __shfl_xor_sync(0xffffffff, cIters, 1, 32);

    printf(" 1: Th %2d cI %d\n", threadIdx.x, cIters);
    cSteps += __shfl_xor_sync(0xffffffff, cSteps, 1, 32); // 2 changed to 1
    cIters += __shfl_xor_sync(0xffffffff, cIters, 1, 32); // 2 changed to 1

    printf(" 2: Th %2d cI %d\n", threadIdx.x, cIters);

    cSteps += __shfl_xor_sync(0xffffffff, cSteps, 4, 32);
    cIters += __shfl_xor_sync(0xffffffff, cIters, 4, 32);

    printf(" 4: Th %2d cI %d\n", threadIdx.x, cIters);

    cSteps += __shfl_xor_sync(0xffffffff, cSteps, 8, 32);
    cIters += __shfl_xor_sync(0xffffffff, cIters, 8, 32);

    printf(" 8: Th %2d cI %d\n", threadIdx.x, cIters);

    cSteps += __shfl_xor_sync(0xffffffff, cSteps, 16, 32);
    cIters += __shfl_xor_sync(0xffffffff, cIters, 16, 32);

输出的完整差异是 here .

软硬件环境如下:

GA103 3080Ti(移动)，采用制造商推荐的时钟，16 G VRAM。机器似乎没有与其他 Cuda 程序损坏(使用 primegrid-CUDA 测试并根据双重检查验证任务)
CUDA 11.0
MVSC 主机编译器 14.29.30133

完整调试命令行如下:

"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\bin\nvcc.exe" -gencode=arch=compute_52,code=\"sm_52,compute_52\" --use-local-env -ccbin "C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\bin\HostX86\x64" -x cu   -I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\include" -I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\include"  -G   --keep-dir x64\Debug -maxrregcount=0  --machine 64 --compile -cudart static  -g   -DWIN32 -DWIN64 -D_DEBUG -D_CONSOLE -D_MBCS -Xcompiler "/EHsc /W3 /nologo /Od /Fdx64\Debug\vc142.pdb /FS /Zi /RTC1 /MDd " -o x64\Debug\kernel.cu.obj "C:\Users\[username]\source\repos\BugRepro\BugRepro\kernel.cu"

完整发布命令行如下:

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\bin\nvcc.exe" -gencode=arch=compute_52,code=\"sm_52,compute_52\" --use-local-env -ccbin "C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\bin\HostX86\x64" -x cu   -I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\include" -I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\include"     --keep-dir x64\Release -maxrregcount=0  --machine 64 --compile -cudart static     -DWIN32 -DWIN64 -DNDEBUG -D_CONSOLE -D_MBCS -Xcompiler "/EHsc /W3 /nologo /O2 /Fdx64\Release\vc142.pdb /FS /Zi  /MD " -o x64\Release\kernel.cu.obj "C:\Users\[username]\source\repos\BugRepro\BugRepro\kernel.cu"

我尝试过但没有解决的事情:

添加/删除 syncthreads 调用(其中显示一个，并且在 shuffle 调用之间)，即使它们不是必需的，因为每个 shuffle 都是同步的
将计算能力更改为 8.0 以更好地匹配我的卡
在 GPU 上强制使用基本时钟
以相反的顺序洗牌 (16/8/4/2/1)
使用 __shfl_down_sync 而不是 xor，具有相同的偏移模式。

让每个线程写入全局内存，然后在主机 CPU 上求和确实会产生正确的结果。

用调用 __shfl_sync 和手动计算的车道 ID 替换所有随机播放。只是用__shfl_sync 替换损坏的shuffle xor 2 不会。用 __shfl_sync 替换 just 第一个 shuffle xor 1(它工作正常)确实似乎修复了它。 (这两个解决方法适用于我的 MVCE；我还没有机会评估它们是否适用于整个程序)

    // unexpectedly working
    int id = threadIdx.x;
    printf(" 0: Th %d cI %d\n", threadIdx.x, cIters);
    __syncthreads();
    cSteps += __shfl_sync(0xffffffff, cSteps, id ^ 1, 32);
    cIters += __shfl_sync(0xffffffff, cIters, id ^ 1, 32);

    printf(" 1: Th %2d cI %d\n", threadIdx.x, cIters);
    cSteps += __shfl_xor_sync(0xffffffff, cSteps, 2, 32);
    cIters += __shfl_xor_sync(0xffffffff, cIters, 2, 32);

    printf(" 2: Th %2d cI %d\n", threadIdx.x, cIters);

    cSteps += __shfl_xor_sync(0xffffffff, cSteps, 4, 32);
    cIters += __shfl_xor_sync(0xffffffff, cIters, 4, 32);

    printf(" 4: Th %2d cI %d\n", threadIdx.x, cIters);

    cSteps += __shfl_xor_sync(0xffffffff, cSteps, 8, 32);
    cIters += __shfl_xor_sync(0xffffffff, cIters, 8, 32);

    printf(" 8: Th %2d cI %d\n", threadIdx.x, cIters);

    cSteps += __shfl_xor_sync(0xffffffff, cSteps, 16, 32);
    cIters += __shfl_xor_sync(0xffffffff, cIters, 16, 32);

    printf("16: Th %2d cI %d\n", threadIdx.x, cIters);

即使我有解决方法，我担心我仍然会在某处遇到未定义的行为，而且我的修复可能很脆弱。

任何人都可以阐明这一点吗？我的程序中确实有UB吗？这是一个已知的编译器错误吗？

最佳答案

根据 CUDA 工程团队，这已被确认为编译器错误。正如他们的来信所证实的那样，修复即将推出:

The fix is targeting a future major CUDA release after CUDA 11. The JIT fix will possibly be a little earlier in a Driver branch after latest R515 online.

编辑:似乎没有在 516.94 Game Ready 驱动程序中修复。它似乎在 522.25 和 Cuda 11.8 中得到修复。

他们还确认关闭优化可以解决问题；他们不会对任何在优化仍在进行中可靠工作的解决方法发表评论。

以下解决方法适用于我的硬件和编译器，但 YMMV:

使用 __shfl_sync 而不是 shfl_add_sync 或 shfl_xor_sync
__reduce_add_sync

关于cuda - 为什么我的 CUDA warp shuffle sum 在一个洗牌步骤中使用了错误的偏移量？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/72906728/

文章推荐： swagger - 这个 OpenAPI/Swagger 规范是什么意思？

文章推荐： flutter - 错误时更改 InputDecorationTheme 的填充颜色

Java 数组算法，将 shuffle 类型从 "in-shuffle"交换到 "out-shuffle"时出错
我正在尝试复制以下 while 循环，但它们交错我的“卡片”的方式有所不同。这是我当前有效的 while 循环，我的目标是重新创建此循环，但颠倒两个 card_force 数组的顺序: while
apache-spark - Spark : Difference between Shuffle Write, Shuffle 溢出(内存)，Shuffle 溢出(磁盘)？
我有以下 Spark 作业，试图将所有内容保留在内存中: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(St
tensorflow 数据集 shuffle 然后批处理或批处理然后 shuffle
我最近开始学习 tensorflow。我不确定是否有区别 x = np.array([[1],[2],[3],[4],[5]]) dataset = tf.data.Dataset.from_ten
shuffle - 使用最新spark版本时如何设置spark.sql.shuffle.partitions
我想重置 pyspark 代码中的 spark.sql.shuffle.partitions 配置，因为我需要加入两个大表。但是以下代码在最新的spark版本中不起作用，错误说“xxx中没有方法“se
java - mapreduce.reduce.shuffle.memory.limit.percent、mapreduce.reduce.shuffle.input.buffer.percent 和 mapreduce.reduce.shuffle.merge.percent
我只是想验证我对这些参数及其关系的理解，如果我错了请通知我。 mapreduce.reduce.shuffle.input.buffer.percent 告诉分配给 reducer 的整个洗牌阶段的内
javascript - 如何让 PHP shuffle 结果在整个 shuffle 过程中一次显示一个
假设我的数据库中有 10 个项目正在尝试洗牌，我如何更改当前的代码，以便每次从数据库中提取一个名称时，一次显示一个名称，而不是全部显示一次？ $con = mysqli_connect("XXX",
【Flink】Flink Remote Shuffle 开源：面向流批一体与云原生的 Shuffle 服务
1.概述转载：Flink Remote Shuffle 开源：面向流批一体与云原生的 Shuffle 服务 2.开源作为支持 Flink 流批一体与云原生的重要组成部分，Flink Remote
javascript - 确保 JavaScript 中 shuffle 后的第一个元素与上一次 shuffle 中的最后一个元素不同
这个 fiddle 演示了我的问题:https://jsfiddle.net/petebere/fhg84je2/ 我想确保每次用户单击按钮时都会显示数组中的随机元素。问题是，有时进行新的混洗时，新混
javascript - 尝试使用 Shuffle.js 但出现 Uncaught TypeError : Shuffle is not a constructor
对于那些了解情况的人来说，这应该是一个足够简单的问题 - 为什么我会在控制台中收到此错误？我尝试按照 Shuffle homepage 上“用法”下显示的代码进行操作但我认为该页面忽略了包含开始使用该
scala - Apache Spark 中的 shuffle read 和 shuffle write 是什么
在下面的 Spark admin 在端口 8080 上运行的屏幕截图中: 此代码的“随机读取”和“随机写入”参数始终为空: import org.apache.spark.SparkContext;
java - java.util.Collections.shuffle(List list) 可以按照与 "sent to be shuffled"相同的顺序返回列表吗？
docs说“所有排列的发生概率大致相等。”但我不知道这是否包括返回相同订单的可能性(无论多么小)。我有一个方法(见下文)，在两次测试运行期间，列表以原始顺序返回，也许……其他因素可能有问题，比如可能已
apache-spark - Spark shuffle 错误 org.apache.spark.shuffle.FetchFailedException : FAILED_TO_UNCOMPRESS(5)
我有一份处理大量数据的工作。此作业经常运行而没有任何错误，但偶尔会引发此错误。我正在使用 Kyro Serializer。我正在使用 yarn 集群运行 Spark 1.2.0。完整的堆栈跟踪在这
memory-management - org.apache.spark.shuffle.MetadataFetchFailedException : Missing an output location for shuffle? 的可能原因是什么
我正在 EC2 集群上部署 Spark 数据处理作业，该作业对于集群来说很小(16 个核心，总共 120G RAM)，最大的 RDD 只有 76k+ 行。但是中间严重倾斜(因此需要重新分区)并且每
apache-spark - 当 shuffle 分区大于 200 时会发生什么(数据帧中的 spark.sql.shuffle.partitions 200(默认情况下))
打乱数据的 spark sql 聚合操作，即 spark.sql.shuffle.partitions 200(默认情况下)。当 shuffle partition 大于 200 时，性能会发生什么变
apache-spark - 当 shuffle 分区大于 200 时会发生什么(数据帧中的 spark.sql.shuffle.partitions 200(默认情况下))
打乱数据的 spark sql 聚合操作，即 spark.sql.shuffle.partitions 200(默认情况下)。当 shuffle partition 大于 200 时，性能会发生什么变
python - 为什么 random.shuffle(list(range(n))) 有效，但 random.shuffle(range(n)) 无效？
当在 Python 3 中使用 random 模块 random.shuffle(list(range(n))) 时，但是 random.shuffle(range( n)) 没有。为什么会这样？
python - ValueError : Setting a random_state has no effect since shuffle is False. 您应该将 random_state 保留为其默认值(无)，或设置 shuffle=True
当我尝试在 pycaret 中训练某些东西时，我收到此错误消息 ValueError: Setting a random_state has no effect since shuffle is Fa
apache-spark - 为什么 Spark 作业失败并出现 org.apache.spark.shuffle.MetadataFetchFailedException : Missing an output location for shuffle 0 in speculation mode?
我正在以推测模式运行 Spark 作业。我有大约 500 个任务和大约 500 个 1 GB gz 压缩文件。我不断地进入每项作业，对于 1-2 个任务，附加错误，然后它会重新运行数十次(阻止作业完成
模板中的django shuffle
作为Django中关键字云函数的一部分，我正在尝试输出字符串列表。是否有模板过滤器，可让您随机播放列表中的项目？我认为这很简单，但是我在官方文档中找不到任何适用的过滤器。最佳答案制作自己的东西很简
shuffle - 混洗有偏差的随机数
同时思考this问题并与参与者交谈后，出现了这样的想法:对一组有限的明显有偏见的随机数进行洗牌，使它们变得随机，因为你不知道它们被选择的顺序。这是真的吗？如果是的话，有人可以指出一些资源吗？编辑:我

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

cuda - 为什么我的 CUDA warp shuffle sum 在一个洗牌步骤中使用了错误的偏移量？