CUDA 无效设备符号错误-6ren

CUDA 无效设备符号错误

转载作者：行者123 更新时间：2023-12-04 17:35:09

26

4

下面的代码编译得很好。但是当我尝试运行它时，我得到了

GPUassert: invalid device symbol file.cu 114

当我注释由 (!!!) 标记的行时，错误不会出现。我的问题是是什么导致了这个错误，因为它让我没有任何意义。

使用 nvcc file.cu -arch compute_11 编译

#include "stdio.h"
#include <algorithm>
#include <ctime>

#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
#define THREADS 64
#define BLOCKS 256
#define _dif (((1ll<<32)-121)/(THREADS*BLOCKS)+1)

#define HASH_SIZE 1024
#define ROUNDS 16
#define HASH_ROW (HASH_SIZE/ROUNDS)+(HASH_SIZE%ROUNDS==0?0:1)
#define HASH_COL 1000000000/HASH_SIZE


typedef unsigned long long ull;

inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true)
{
  if (code != cudaSuccess) 
  {
  //fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
  printf("GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
  if (abort) exit(code);
  }
}

__device__ unsigned int primes[1024]; 
//__device__ unsigned char primes[(1<<28)+1];
__device__ long long n = 1ll<<32; 
__device__ ull dev_base;
__device__ unsigned int dev_hash; 
__device__ unsigned int dev_index; 

time_t curtime;

__device__ int hashh(long long x) {
  return (x>>1)%1024;
}
// compute (x^e)%n
__device__ ull mulmod(ull x,ull e,ull n) {
ull ans = 1;
while(e>0) {
    if(e&1) ans = (ans*x)%n;
    x = (x*x)%n;
    e>>=1;
}
return ans;
}

// determine whether n is strong probable prime base a or not.
// n is ODD
__device__ int is_SPRP(ull a,ull n) {
  int d=0;
  ull t = n-1;
  while(t%2==0) {
      ++d;
      t>>=1;
  }
  ull x = mulmod(a,t,n);
  if(x==1) return 1; 
  for(int i=0;i<d;++i) {
      if(x==n-1) return 1;
      x=(x*x)%n;
  }
  return 0;
}


__device__ int prime(long long x) {
//unsigned long long b = 2;
//return is_SPRP(b,(unsigned long long)x);
return is_SPRP((unsigned long long)primes[(((long long)0xAFF7B4*x)>>7)%1024],(unsigned long long)x);
}

__global__ void find(unsigned int *out,unsigned int *c) {

unsigned int buff[HASH_ROW][256];
int local_c[HASH_ROW];
for(int i=0;i<HASH_ROW;++i) local_c[i]=0;

long long b = 121+(threadIdx.x+blockIdx.x*blockDim.x)*_dif;
long long e = b+_dif;
if(b%2==0) ++b;
for(long long i=b;i<e && i<n;i+=2) {
    if(i%3==0 || i%5==0 || i%7==0) continue;
    int hash_num = hashh(i)-(dev_hash*(HASH_ROW));
    if(0<=hash_num && hash_num<HASH_ROW) {
    if(prime(i)) continue;
    buff[hash_num][local_c[hash_num]++]=(unsigned int)i;
    if(local_c[hash_num]==256) {
        int start = atomicAdd(c+hash_num,local_c[hash_num]);
        if(start+local_c[hash_num]>=HASH_COL) return;

        unsigned int *out_offset = out+hash_num*(HASH_COL)*4;
        for(int i=0;i<local_c[hash_num];++i) out_offset[i+start]=buff[hash_num][i]; //(!!!)
        local_c[hash_num]=0;
    }
    }
}
for(int i=0;i<HASH_ROW;++i) {
  int start = atomicAdd(c+i,local_c[i]);
  if(start+local_c[i]>=HASH_COL) return;
  unsigned int *out_offset = out+i*(HASH_COL)*4;
  for(int j=0;j<local_c[i];++j) out_offset[j+start]=buff[i][j]; //(!!!)
}

}

int main(void) {
printf("HASH_ROW: %d\nHASH_COL: %d\nPRODUCT: %d\n",(int)HASH_ROW,(int)HASH_COL,(int)(HASH_ROW)*(HASH_COL));

ull *base_adr;
gpuErrchk(cudaGetSymbolAddress((void**)&base_adr,dev_base));
gpuErrchk(cudaMemset(base_adr,0,7));
gpuErrchk(cudaMemset(base_adr,0x02,1));
}

最佳答案

一个相当不寻常的错误。

发生故障的原因是:

通过仅指定虚拟架构( -arch compute_11 )，您将 PTX 编译步骤推迟到运行时(即您强制进行 JIT 编译)

JIT 编译失败(在运行时)

JIT 编译(和链接)失败意味着无法正确建立设备符号

由于设备符号问题，操作cudaGetSymbolAddress在设备符号上 dev_base失败，并抛出错误。

为什么 JIT 编译失败？您可以通过指定 ptxas 触发机器代码编译(运行 -arch=sm_11 汇编程序)来找出自己的身份。而不是 -arch compute_11 .如果你这样做，你会得到这样的结果:

ptxas error   : Entry function '_Z4findPjS_' uses too much local data (0x10100 bytes, 0x4000 max)

所以即使你的代码没有调用 find内核，它必须成功编译才能为符号提供一个健全的设备环境。

为什么会出现这个编译错误？因为您每个线程请求太多本地内存。 cc 1.x devices are limited to 16KB local memory per thread ，以及您的 find内核要求的远不止这些(超过 64KB)。

当我最初在我的设备上尝试它时，我使用的是具有更高限制(每个线程 512KB)的 cc2.0 设备，因此 JIT 编译步骤成功了。

一般来说，我建议同时指定虚拟架构和机器架构，简写方式是:

nvcc -arch=sm_11 ....

(对于 cc1.1 设备)

此 question/answer可能也有兴趣，还有 nvcc manual有更多关于虚拟与机器架构的细节，以及如何为每个架构指定编译阶段。

我相信当您注释掉内核中的那些特定行时错误消失的原因是，注释掉那些行后，编译器能够优化对这些本地内存区域的访问，并优化对本地内存。这允许 JIT 编译步骤成功完成，并且您的代码运行“没有运行时错误”。

您可以通过将这些行注释掉然后指定完整编译( nvcc -arch=sm_11 ... )来验证这一点，其中 -arch --gpu-architecture的缩写.

关于CUDA 无效设备符号错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22364926/

26

4

0

文章推荐： asp.net-mvc-5 - Glimpse HUD 不显示

文章推荐： assembly - RaspberryPI/BCM2835 内存布局

文章推荐： Twilio:通过永远响铃来响应来电

文章推荐： api - Yelp API - 拉取企业的所有评论

iphone - iphone 设备 UDID 、 iphone 设备 ID 和 iphone 设备 token 之间有什么区别？
iphone设备UDID、iphone设备ID和iphone设备Token之间有什么区别？通常，当我们使用苹果推送通知服务时，会使用 iPhone 设备 token 。但我的目标只是识别唯一的 i
android - 发送数据到 Android 设备 Notification to IOS 设备
我们使用 firebase 从服务器向 Android 和 IOS 设备发送通知，并且我们使用旧版 FCM 发送通知。但是当我们的应用程序在后台时，通知由系统本身处理，因此我们无法通过应用程序处理它。
iphone - 如何通过蓝牙将 iOS 设备连接到非 iOS 设备(Arduino 设备)？
在 Google 上搜索后，我发现人们说只能通过“MFi 程序”将 iOS 设备与非 iOS 设备连接起来。这是真的吗？我的项目主要集中于直接通过蓝牙与Arduino设备发送和接收信息。 iOS和非
objective-c - 如果(设备 == iPad)，如果(设备 == iPhone)
所以我有一个通用应用程序，我正在设置 UIScrollView 的内容大小。显然，iPhone 和 iPad 上的内容大小会有所不同。如何为 iPad 设置某种尺寸，为 iPhone 和 iPod t
kubernetes - 如何使用连接到主机的 block 设备，作为 pod 中的 block 设备
问题:如何在 pod 中使用连接到主机的原始设备作为 block 设备。我尝试使用类型为“BlockDevice”的“hostPath” volumes: - my-data: hostPath
ios - Google Cast 设备 DidComeOnline(设备 : GCKDevice!)从未被调用 #GoogleCastSDK
Implemented GCKDeviceScannerListener Singleton Class on ViewController, however its delegate methods
iOS APNS 设备 ID 与 Passbook 设备 ID 不匹配
我有一个 (PhoneGap) 应用程序，它将成功获得 Passbook 通行证，并且还将成功接收与 Passbook 分开的推送通知(当伪造设备 ID 时)。我遇到的问题是发送给注册设备的设备 I
ios - 访问电池供电的 iBeacon 设备(主要是 kontakt io 设备)的电池电量？
我正在尝试找到一种方法，通过我目前正在使用的 iOS 应用程序访问我的信标的电池电量。我正在使用 Kontakt 的 iBeacon 设备。我浏览了 Estimote iOS SDK，他们提供了一种实
c - NVAPI 设备 ID 与 CUDA 设备 ID 有何关系？
我正在努力让 CUDA 应用程序也能监控 GPU 的核心温度。可通过 NVAPI 访问该信息。问题是我想确保在运行代码时监控的是同一个 GPU。但是，似乎有信息表明我从 NvAPI_EnumPhy
沙盒中的 iPhone APNS 设备 token 与生产环境中的 iPhone APNS 设备 token
从沙箱模式到生产模式，设备 token 有何不同？我认为我已将一些设备 token 锁定为生产模式，并且无法将它们从开发中插入。关于如何检查有什么想法吗？最佳答案当您使用开发证书构建应用程序时
android - 文件管理器检测到 Android 设备，但 gvfs 文件夹为空。如何从终端访问 MTP 设备？
目录 /run/user/1000/gvfs 和 ~/.gvfs 分别是空的和不存在的。我的图形文件管理器 (Thunar) 能够检测和访问设备的内部和外部存储器。命令 gvfs-mount -l
Android 平板电脑无法通过 USB 端口找到 USB 设备，但可以通过 OTG 线找到 USB 设备
我有一个 Android 平板电脑，它有一个迷你 USB 端口和一个 USB 端口，我想编写一个与 USB key 通信的应用程序。我写了一个demo来找出U盘，但是没有任何反应。令我不安的是，如果
php - SOAP 网络服务不仅仅适用于 IOS 设备，它适用于 soap ui 和 Android 设备
我们将 PHP 版本从 5.4.25 更改为 5.4.45，并在服务器上安装了 MS SQL 驱动程序。在更改服务器之前，一切正常，但在更改服务器之后，我遇到了 Web 服务问题。我们的身份验证 So
支持从两个后置摄像头同时捕获的 Android 设备
我想知道是否有人使用此 API 在 Android 设备上同时从 2 个后置摄像头捕获图像或视频:https://source.android.com/docs/core/camera/concurr
可以接受强制门户上的条款的嵌入式 WiFi 设备？
我正在为客户构建一个物联网解决方案，网络管理员坚持要求设备仅通过访客网络进行连接，该网络有一个强制门户，其中的服务条款必须通过按下 UI 按钮来接受，然后才能获得外部互联网访问。到目前为止，我见过的大
delphi - 使用delphi检测USB驱动器/设备
我无法弄清楚这里的格式规则..在我的示例中，代码行太多，无法为每行添加 4 个空格，因此这里是我需要帮助的代码的链接 http://nitemsg.blogspot.com/2011/01/heres
iOS 设备 token
如果我在我的设备上接受推送通知，并且不保存设备 token ，那么我如何在自定义 View 中查看设备 token 或恢复警报 View ？我删除了应用程序并重新安装，但看不到设备 token 警报
多线程复制 block 设备
我试图找出在尝试并行比较和复制设备 block 与 pthreads 时我做错了什么。看起来我正在脱离同步并且比较阶段无法正常工作。任何帮助将不胜感激 #ifndef __dbg_h__ #defin
Android 相对布局和不同的屏幕尺寸/设备
我刚刚写完所有这些内容，但这个红色的小栏告诉我我不能发布图片或两个以上的链接。因此，如果您可以引用 this Imgur album ，那简直太好了。谢谢。我在这里相对较新，甚至对 android
MySQL --> 启用常规日志并将其移动到另一个驱动器/设备
我需要启用 mysql 常规日志并将其通过 nsf 移动到我系统中的另一个驱动器/设备! 所以，我在 my.cnf 中启用了它: general_log = 1 general_log_fi

首页

博学

6Ren·AI

商城

CUDA 无效设备符号错误