CUDA 设备堆栈和同步； SSY指令-6ren

CUDA 设备堆栈和同步； SSY指令

转载作者：行者123 更新时间：2023-12-04 08:45:25

编辑:这个问题是原版的重做版本，所以前几个回答可能不再相关。

我很好奇强制无内联的设备函数调用对设备函数内的同步有什么影响。我有一个简单的测试内核来说明相关行为。

内核获取一个缓冲区并将其传递给设备函数，以及一个共享缓冲区和一个指示变量，该变量将单个线程标识为“老板”线程。 device 函数有不同的代码:boss 线程首先花时间在共享缓冲区上做一些琐碎的操作，然后写入全局缓冲区。同步调用后，所有线程都写入全局缓冲区。内核调用后，主机打印全局缓冲区的内容。这是代码:

CUDA 代码:

test_main.cu

#include<cutil_inline.h>
#include "test_kernel.cu"

int main()
{
  int scratchBufferLength = 100;
  int *scratchBuffer;
  int *d_scratchBuffer;

  int b = 1;
  int t = 64;

  // copy scratch buffer to device
  scratchBuffer = (int *)calloc(scratchBufferLength,sizeof(int));
  cutilSafeCall( cudaMalloc(&d_scratchBuffer,
        sizeof(int) * scratchBufferLength) );
  cutilSafeCall( cudaMemcpy(d_scratchBuffer, scratchBuffer,
        sizeof(int)*scratchBufferLength, cudaMemcpyHostToDevice) );

  // kernel call
  testKernel<<<b, t>>>(d_scratchBuffer);

  cudaThreadSynchronize();

  // copy data back to host
  cutilSafeCall( cudaMemcpy(scratchBuffer, d_scratchBuffer,
        sizeof(int) * scratchBufferLength, cudaMemcpyDeviceToHost) );

  // print results
  printf("Scratch buffer contents: \t");
  for(int i=0; i < scratchBufferLength; ++i)
  {
    if(i % 25 == 0)
      printf("\n");
    printf("%d ", scratchBuffer[i]);
  }
  printf("\n");

  //cleanup
  cudaFree(d_scratchBuffer);
  free(scratchBuffer);

  return 0;
}

test_kernel.cu

#ifndef __TEST_KERNEL_CU
#define __TEST_KERNEL_CU


#define IS_BOSS() (threadIdx.x == blockDim.x - 1)

__device__
__noinline__
void testFunc(int *sA, int *scratchBuffer, bool isBoss) {

  if(isBoss)  {   // produces unexpected output-- "broken" code
//if(IS_BOSS())  {    // produces expected output-- "working" code

    for (int c = 0; c < 10000; c++)  {
      sA[0] = 1;
    }
  }

  if(isBoss) {
    scratchBuffer[0] = 1;
  }

  __syncthreads();

  scratchBuffer[threadIdx.x ] = threadIdx.x;

  return;

}

__global__
void testKernel(int *scratchBuffer)
{
  __shared__ int sA[4];

  bool isBoss = IS_BOSS();

  testFunc(sA, scratchBuffer, isBoss);
  return;
}
#endif

我从 CUDA SDK 内部编译了这段代码，以利用 test_main.cu 中的“cutilsafecall()”函数，当然，如果您想在 SDK 外部编译，这些代码也可以删除。我使用 CUDA 驱动程序/工具包版本 4.0、计算能力 2.0 进行编译，代码在具有 Fermi 架构的 GeForce GTX 480 上运行。

预期的输出是

0 1 2 3 ... blockDim.x-1

但是，我得到的输出是

1 1 2 3 ... blockDim.x-1

这似乎表明boss线程执行了条件“scratchBuffer[0] = 1;”在所有线程执行“scratchBuffer[threadIdx.x] = threadIdx.x;”之后的语句语句，即使它们被 __syncthreads() 屏障分隔。

即使指示boss线程将哨兵值写入同一warp中线程的缓冲区位置，也会发生这种情况；哨兵是缓冲区中存在的最终值，而不是适当的 threadIdx.x 。

导致代码产生预期输出的一种修改是更改条件语句

if(isBoss) {

到

if(IS_BOSS()) {

;即，将发散控制变量从存储在参数寄存器中更改为在宏函数中计算。 (请注意源代码中相应行的注释。)正是我一直专注于尝试追踪问题的这一特殊更改。在查看带有“isBoss”条件(即损坏的代码)和“IS_BOSS()”条件(即工作代码)的内核的反汇编 .cubins 时，指令中最显着的区别似乎是缺少反汇编损坏代码中的 SSY 指令。

这是通过反汇编 .cubin 文件生成的反汇编内核
"cuobjdump -sass test_kernel.cubin"。直到第一个“退出”的所有内容都是内核，之后的所有内容都是设备功能。唯一的区别在于设备功能。

分解的对象代码:

“损坏”的代码

code for sm_20

    Function : _Z10testKernelPi
/*0000*/     /*0x00005de428004404*/     MOV R1, c [0x1] [0x100];
/*0008*/     /*0x20009de428004000*/     MOV R2, c [0x0] [0x8];
/*0010*/     /*0x84001c042c000000*/     S2R R0, SR_Tid_X;
/*0018*/     /*0xfc015de428000000*/     MOV R5, RZ;
/*0020*/     /*0x00011de428004000*/     MOV R4, c [0x0] [0x0];
/*0028*/     /*0xfc209c034800ffff*/     IADD R2, R2, 0xfffff;
/*0030*/     /*0x9001dde428004000*/     MOV R7, c [0x0] [0x24];
/*0038*/     /*0x80019de428004000*/     MOV R6, c [0x0] [0x20];
/*0040*/     /*0x08001c03110e0000*/     ISET.EQ.U32.AND R0, R0, R2, pt;
/*0048*/     /*0x01221f841c000000*/     I2I.S32.S32 R8, -R0;
/*0050*/     /*0x2001000750000000*/     CAL 0x60;
/*0058*/     /*0x00001de780000000*/     EXIT;
/*0060*/     /*0x20201e841c000000*/     I2I.S32.S8 R0, R8;
/*0068*/     /*0xfc01dc231a8e0000*/     ISETP.NE.AND P0, pt, R0, RZ, pt;
/*0070*/     /*0xc00021e740000000*/     @!P0 BRA 0xa8;
/*0078*/     /*0xfc001de428000000*/     MOV R0, RZ;
/*0080*/     /*0x04001c034800c000*/     IADD R0, R0, 0x1;
/*0088*/     /*0x04009de218000000*/     MOV32I R2, 0x1;
/*0090*/     /*0x4003dc231a8ec09c*/     ISETP.NE.AND P1, pt, R0, 0x2710, pt;
/*0098*/     /*0x00409c8594000000*/     ST.E [R4], R2;
/*00a0*/     /*0x600005e74003ffff*/     @P1 BRA 0x80;
/*00a8*/     /*0x040001e218000000*/     @P0 MOV32I R0, 0x1;
/*00b0*/     /*0x0060008594000000*/     @P0 ST.E [R6], R0;
/*00b8*/     /*0xffffdc0450ee0000*/     BAR.RED.POPC RZ, RZ;
/*00c0*/     /*0x84001c042c000000*/     S2R R0, SR_Tid_X;
/*00c8*/     /*0x10011c03200dc000*/     IMAD.U32.U32 R4.CC, R0, 0x4, R6;
/*00d0*/     /*0x10009c435000c000*/     IMUL.U32.U32.HI R2, R0, 0x4;
/*00d8*/     /*0x08715c4348000000*/     IADD.X R5, R7, R2;
/*00e0*/     /*0x00401c8594000000*/     ST.E [R4], R0;
/*00e8*/     /*0x00001de790000000*/     RET;
    .................................

“工作”代码

code for sm_20

    Function : _Z10testKernelPi
/*0000*/     /*0x00005de428004404*/     MOV R1, c [0x1] [0x100];
/*0008*/     /*0x20009de428004000*/     MOV R2, c [0x0] [0x8];
/*0010*/     /*0x84001c042c000000*/     S2R R0, SR_Tid_X;
/*0018*/     /*0xfc015de428000000*/     MOV R5, RZ;
/*0020*/     /*0x00011de428004000*/     MOV R4, c [0x0] [0x0];
/*0028*/     /*0xfc209c034800ffff*/     IADD R2, R2, 0xfffff;
/*0030*/     /*0x9001dde428004000*/     MOV R7, c [0x0] [0x24];
/*0038*/     /*0x80019de428004000*/     MOV R6, c [0x0] [0x20];
/*0040*/     /*0x08001c03110e0000*/     ISET.EQ.U32.AND R0, R0, R2, pt;
/*0048*/     /*0x01221f841c000000*/     I2I.S32.S32 R8, -R0;
/*0050*/     /*0x2001000750000000*/     CAL 0x60;
/*0058*/     /*0x00001de780000000*/     EXIT;
/*0060*/     /*0x20009de428004000*/     MOV R2, c [0x0] [0x8];
/*0068*/     /*0x8400dc042c000000*/     S2R R3, SR_Tid_X;
/*0070*/     /*0x20201e841c000000*/     I2I.S32.S8 R0, R8;
/*0078*/     /*0x4000000760000001*/     SSY 0xd0;
/*0080*/     /*0xfc209c034800ffff*/     IADD R2, R2, 0xfffff;
/*0088*/     /*0x0831dc031a8e0000*/     ISETP.NE.U32.AND P0, pt, R3, R2, pt;
/*0090*/     /*0xc00001e740000000*/     @P0 BRA 0xc8;
/*0098*/     /*0xfc009de428000000*/     MOV R2, RZ;
/*00a0*/     /*0x04209c034800c000*/     IADD R2, R2, 0x1;
/*00a8*/     /*0x04021de218000000*/     MOV32I R8, 0x1;
/*00b0*/     /*0x4021dc231a8ec09c*/     ISETP.NE.AND P0, pt, R2, 0x2710, pt;
/*00b8*/     /*0x00421c8594000000*/     ST.E [R4], R8;
/*00c0*/     /*0x600001e74003ffff*/     @P0 BRA 0xa0;
/*00c8*/     /*0xfc01dc33190e0000*/     ISETP.EQ.AND.S P0, pt, R0, RZ, pt;
/*00d0*/     /*0x040021e218000000*/     @!P0 MOV32I R0, 0x1;
/*00d8*/     /*0x0060208594000000*/     @!P0 ST.E [R6], R0;
/*00e0*/     /*0xffffdc0450ee0000*/     BAR.RED.POPC RZ, RZ;
/*00e8*/     /*0x10311c03200dc000*/     IMAD.U32.U32 R4.CC, R3, 0x4, R6;
/*00f0*/     /*0x10309c435000c000*/     IMUL.U32.U32.HI R2, R3, 0x4;
/*00f8*/     /*0x84001c042c000000*/     S2R R0, SR_Tid_X;
/*0100*/     /*0x08715c4348000000*/     IADD.X R5, R7, R2;
/*0108*/     /*0x00401c8594000000*/     ST.E [R4], R0;
/*0110*/     /*0x00001de790000000*/     RET;
    .................................

“SSY”指令存在于工作代码中，但不存在于损坏的代码中。 cuobjdump 手册用“设置同步点；在可能发散的指令之前使用”来描述该指令。这让我认为由于某种原因，编译器无法识别损坏代码中出现分歧的可能性。

我还发现，如果我注释掉 __noinline__ 指令，那么代码会产生预期的输出，并且实际上由其他“损坏”和“工作”版本产生的程序集完全相同。所以，这让我觉得当一个变量通过调用堆栈传递时，该变量不能用于控制发散和后续的同步调用；在这种情况下，编译器似乎没有意识到发散的可能性，因此不会插入“SSY”指令。有谁知道这是否确实是 CUDA 的合法限制，如果是，是否在任何地方都有记录？

提前致谢。

最佳答案

这似乎只是 CUDA 4.1/4.2 中修复的编译器错误。不会在 CUDA 4.2 上为提问者重现。

关于CUDA 设备堆栈和同步； SSY指令，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12377398/

文章推荐： math - 平滑地连接两个贝塞尔曲线(C2连续)

文章推荐： jar - 智能 IDEA。生成 javadoc 作为 jar 存档

文章推荐： asp.net-mvc - 使用 Automapper 返回 IQueryable

文章推荐： many-to-many - datomic 中的限定关系

iphone - iphone 设备 UDID 、 iphone 设备 ID 和 iphone 设备 token 之间有什么区别？
iphone设备UDID、iphone设备ID和iphone设备Token之间有什么区别？通常，当我们使用苹果推送通知服务时，会使用 iPhone 设备 token 。但我的目标只是识别唯一的 i
android - 发送数据到 Android 设备 Notification to IOS 设备
我们使用 firebase 从服务器向 Android 和 IOS 设备发送通知，并且我们使用旧版 FCM 发送通知。但是当我们的应用程序在后台时，通知由系统本身处理，因此我们无法通过应用程序处理它。
iphone - 如何通过蓝牙将 iOS 设备连接到非 iOS 设备(Arduino 设备)？
在 Google 上搜索后，我发现人们说只能通过“MFi 程序”将 iOS 设备与非 iOS 设备连接起来。这是真的吗？我的项目主要集中于直接通过蓝牙与Arduino设备发送和接收信息。 iOS和非
objective-c - 如果(设备 == iPad)，如果(设备 == iPhone)
所以我有一个通用应用程序，我正在设置 UIScrollView 的内容大小。显然，iPhone 和 iPad 上的内容大小会有所不同。如何为 iPad 设置某种尺寸，为 iPhone 和 iPod t
kubernetes - 如何使用连接到主机的 block 设备，作为 pod 中的 block 设备
问题:如何在 pod 中使用连接到主机的原始设备作为 block 设备。我尝试使用类型为“BlockDevice”的“hostPath” volumes: - my-data: hostPath
ios - Google Cast 设备 DidComeOnline(设备 : GCKDevice!)从未被调用 #GoogleCastSDK
Implemented GCKDeviceScannerListener Singleton Class on ViewController, however its delegate methods
iOS APNS 设备 ID 与 Passbook 设备 ID 不匹配
我有一个 (PhoneGap) 应用程序，它将成功获得 Passbook 通行证，并且还将成功接收与 Passbook 分开的推送通知(当伪造设备 ID 时)。我遇到的问题是发送给注册设备的设备 I
ios - 访问电池供电的 iBeacon 设备(主要是 kontakt io 设备)的电池电量？
我正在尝试找到一种方法，通过我目前正在使用的 iOS 应用程序访问我的信标的电池电量。我正在使用 Kontakt 的 iBeacon 设备。我浏览了 Estimote iOS SDK，他们提供了一种实
c - NVAPI 设备 ID 与 CUDA 设备 ID 有何关系？
我正在努力让 CUDA 应用程序也能监控 GPU 的核心温度。可通过 NVAPI 访问该信息。问题是我想确保在运行代码时监控的是同一个 GPU。但是，似乎有信息表明我从 NvAPI_EnumPhy
沙盒中的 iPhone APNS 设备 token 与生产环境中的 iPhone APNS 设备 token
从沙箱模式到生产模式，设备 token 有何不同？我认为我已将一些设备 token 锁定为生产模式，并且无法将它们从开发中插入。关于如何检查有什么想法吗？最佳答案当您使用开发证书构建应用程序时
android - 文件管理器检测到 Android 设备，但 gvfs 文件夹为空。如何从终端访问 MTP 设备？
目录 /run/user/1000/gvfs 和 ~/.gvfs 分别是空的和不存在的。我的图形文件管理器 (Thunar) 能够检测和访问设备的内部和外部存储器。命令 gvfs-mount -l
Android 平板电脑无法通过 USB 端口找到 USB 设备，但可以通过 OTG 线找到 USB 设备
我有一个 Android 平板电脑，它有一个迷你 USB 端口和一个 USB 端口，我想编写一个与 USB key 通信的应用程序。我写了一个demo来找出U盘，但是没有任何反应。令我不安的是，如果
php - SOAP 网络服务不仅仅适用于 IOS 设备，它适用于 soap ui 和 Android 设备
我们将 PHP 版本从 5.4.25 更改为 5.4.45，并在服务器上安装了 MS SQL 驱动程序。在更改服务器之前，一切正常，但在更改服务器之后，我遇到了 Web 服务问题。我们的身份验证 So
支持从两个后置摄像头同时捕获的 Android 设备
我想知道是否有人使用此 API 在 Android 设备上同时从 2 个后置摄像头捕获图像或视频:https://source.android.com/docs/core/camera/concurr
可以接受强制门户上的条款的嵌入式 WiFi 设备？
我正在为客户构建一个物联网解决方案，网络管理员坚持要求设备仅通过访客网络进行连接，该网络有一个强制门户，其中的服务条款必须通过按下 UI 按钮来接受，然后才能获得外部互联网访问。到目前为止，我见过的大
delphi - 使用delphi检测USB驱动器/设备
我无法弄清楚这里的格式规则..在我的示例中，代码行太多，无法为每行添加 4 个空格，因此这里是我需要帮助的代码的链接 http://nitemsg.blogspot.com/2011/01/heres
iOS 设备 token
如果我在我的设备上接受推送通知，并且不保存设备 token ，那么我如何在自定义 View 中查看设备 token 或恢复警报 View ？我删除了应用程序并重新安装，但看不到设备 token 警报
多线程复制 block 设备
我试图找出在尝试并行比较和复制设备 block 与 pthreads 时我做错了什么。看起来我正在脱离同步并且比较阶段无法正常工作。任何帮助将不胜感激 #ifndef __dbg_h__ #defin
Android 相对布局和不同的屏幕尺寸/设备
我刚刚写完所有这些内容，但这个红色的小栏告诉我我不能发布图片或两个以上的链接。因此，如果您可以引用 this Imgur album ，那简直太好了。谢谢。我在这里相对较新，甚至对 android
MySQL --> 启用常规日志并将其移动到另一个驱动器/设备
我需要启用 mysql 常规日志并将其通过 nsf 移动到我系统中的另一个驱动器/设备! 所以，我在 my.cnf 中启用了它: general_log = 1 general_log_fi

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

CUDA 设备堆栈和同步； SSY指令