gpt4 book ai didi

将字符数组从主机复制到设备后,CUDA: "Stack Overflow or Breakpoint Hit"和未指定的启动失败错误

转载 作者:行者123 更新时间:2023-11-30 14:26:12 26 4
gpt4 key购买 nike

我的主程序中有一个大的字符数组,我将其分块复制到设备中内存。我在程序中运行大约 500,000 个线程,每个线程访问 2000 个字符。所以我使用代码一次传输 500,000 * 2000 = 1GB 字节

err = cudaMemcpy (dev_database, adjusted_database[k], JOBS * 2000 * sizeof(char), cudaMemcpyHostToDevice);
if(err != cudaSuccess) { printf("CUDA error: %s\n", cudaGetErrorString(err)); exit(EXIT_FAILURE); }

在我的内核中,我还定义了三个共享数组

//__shared__ char dev_query[200];
__shared__ float dev_scores[200*5];
__shared__ int dev_index[26];

并初始化它们

if(threadIdx.x == 0) { 
//for(i = 0; i < 200; i++){ dev_query[i] = dev_query_constant[i]; }
for(i = 0; i < 200 * 5; i++){ dev_scores[i] = dev_scores_constant[i]; }
for(i = 0; i < 26; i++){ dev_index[i] = dev_index_constant[i]; }
}
__syncthreads();

如果我用注释的两行运行我的程序,我的内核会返回奇怪的结果值,当我复制 char 数组的第二 block 时,出现错误

CUDA 错误:未指定的启动失败

如果我取消注释上面代码中的行,一切正常。如果我复制较小的数组的 block ,例如 100MB 而不是 1GB,它工作正常,直到我到达第 6 个 block ,我得到与上面相同的错误。

这是非常奇怪的行为,我想了解为什么会发生这种情况。是某个地方有一个错误导致了这个吗?很难确定它是因为如果我传输一小块(例如 100MB)并忽略其他 block ,程序可以正常工作那些。如果我取消注释与共享变量相关的行,它也可以正常工作或者将共享变量更改为常量。任何帮助将不胜感激。谢谢!

编辑:这是我的内核。总而言之,我正在计算两个的相似度分数通过比较 0 和长度之间所有 i 的第 i 个字符来识别字符串。下面的代码将产生上述错误除非您立即取消注释 if(threadIdx.x == 0) { 之后的行。或者如果你将下面的共享数组替换为常量数组,那么它也可以正常工作。

__global__ void assign7(int jobs_todo, char* database, float* results, int flag) {
unsigned int id = threadIdx.x + blockIdx.x * blockDim.x;

if(id < jobs_todo) {
__shared__ char dev_query[200];
__shared__ float dev_pos_specific_scores[200*5];
__shared__ int dev_subst_index[26];

int j_, i, p, stop, k; //stop2;
float score=0, max=0;
char ch; //ch1, ch2;

if(threadIdx.x == 0) {
//for(i = 0; i < 51; i++){ dev_query[i] = dev_query_constant[i]; }
for(i = 0; i < 5 * 200; i++){ dev_pos_specific_scores[i] = dev_pos_specific_scores_constant[i]; }
for(i = 0; i < 26; i++){ dev_subst_index[i] = dev_subst_index_constant[i]; }
}
__syncthreads();

for(i = 1; i <= 2000 - 51; i += 1){
p = jobs_todo*(i-1);
score = 0;
stop = 51/1; stop = stop*1;
for(j_ = 1; j_ <= stop; j_ += 1){
k = (j_-1)*5;
ch = database[p + id];
score += dev_pos_specific_scores[k + dev_subst_index[ch - 'A']];
if(score < 0) score = 0;
if(score > max) max = score;
p += jobs_todo;
}
}
results[id] = max;
}
}

最佳答案

下面的部分使用 k 而不对其进行初始化:

ch = database[p + id];
score += dev_scores[k + dev_index[ch - 'A']];

这无关紧要,但这部分:

if(threadIdx.x == 0) { 
//for(i = 0; i < 200; i++){ dev_query[i] = dev_query_constant[i]; }
for(i = 0; i < 200 * 5; i++){ dev_scores[i] = dev_scores_constant[i]; }
for(i = 0; i < 26; i++){ dev_index[i] = dev_index_constant[i]; }
}

可以更改为:

if(threadIdx.x < 200) {
// dev_query[i] = dev_query_constant[i];
}

if(threadIdx.x < 200 * 5) { // or iterate whole block 5 times..
dev_scores[i] = dev_scores_constant[i];
}
...

关于将字符数组从主机复制到设备后,CUDA: "Stack Overflow or Breakpoint Hit"和未指定的启动失败错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9473002/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com