- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我遇到的问题是,我的代码在 K20 上没有 -G 选项时返回不正确的结果。原来的代码太复杂,所以我将其简化以方便阅读和测试。为了在减少代码时保留不正确的结果,有些语句看起来很奇怪,例如:
r_rhs2 = (r_p - r_p)-r_c;
如果我将其替换为
r_rhs2 =-r_c;
得出错误结果的可能性会大大减少。代码首先在主机上分配3个数组(2D,in*jn),然后将cudaMemcpy分配给设备,然后启动内核“test<<>>”进行一些计算。这是最简化的代码:
#include <stdio.h>
#include <math.h>
#include <time.h>
#include <stdlib.h>
#define in 16
#define jn 16
#define N0 (in*jn*3)
#define N1 (in*jn)
double h_dt, ***h_w;
__device__ double d_dt, *d_w;
__global__ void test()
{
int id0,nn;
int i = blockIdx.x*blockDim.x + threadIdx.x;
int j = blockIdx.y*blockDim.y + threadIdx.y;
double r_a, r_b, r_c, r_rhs1, r_rhs2;
nn = 1;
id0 = j*in + i; //id0 is the ID of element in an array
r_a = d_w[ id0]; //d_w[id0] is the first array
r_b = d_w[ N1+id0]; //d_w[N1+id0] is the second array
r_c = d_w[2*N1+id0]; //d_w[2*N1+id0] is the third array
if (r_b <= 0.0){ //some calculation
r_rhs1 = 0.0; //
}else{ //
r_rhs1 =-((r_c)/nn)*r_b; //the "()" increase the error rate
}
if(abs(r_b+r_a)>1.e20)printf("weird result=%e,%e,%e,%d,%d\n", r_b+r_a, r_b, r_a, i, j); //one of the two printf statement, I show the result later that sometimes r_b+r_a is a large number while r_b and r_a are normal
if (r_b+r_a <= 0.0){ //some calculation
r_rhs2 = 0.0; //
}else{ //
r_rhs2 = (r_a - r_a) - r_c; //(r_a - r_a) increase the error rate
}
d_w[ N1+id0] = d_w[ N1+id0]+r_rhs2; //update d_w
d_w[2*N1+id0] = d_w[2*N1+id0]+r_rhs1;
}
double *** C_mymalloc(int d4, int d3, int d2)
{
double ***a = (double ***)malloc(sizeof(double)*d4*d3*d2 + sizeof(double *)*d4*d3 + sizeof(double **)*d4);
double **start_l = (double **)a + d4;
double *start_k = (double *)a + d4 + d4*d3;
int k, l;
for (l = 0; l < d4; l++){
a[l] = start_l + l*d3;
for (k = 0; k < d3; k++){
a[l][k] = start_k + l*d3*d2 + k*d2;
}
}
return a;
}
int main()
{
double *w_m;
int i,j,n;
h_w = C_mymalloc(3,jn,in);
cudaMalloc((void**)&w_m, sizeof(double)*N0);
cudaMemcpyToSymbol(d_w, &w_m, sizeof(double *));
for (j = 0; j <= jn-1; j++){
for (i = 0; i <= in-1; i++){
h_w[0][j][i] = 1.0;
h_w[1][j][i] = 0.0;
h_w[2][j][i] = 1.0/(i*i+j*j+1.0) - 1.0/((i-in)*(i-in)+(j-jn)*(j-jn)+1.0); //no infinite number
}
}
cudaMemcpy(w_m, h_w[0][0], N0*sizeof(double), cudaMemcpyHostToDevice);
dim3 dim_G(1 , 1 );
dim3 dim_B(16, 16);
n=0;
while (n<=10){
test<<<dim_G, dim_B>>>();
printf("n=%d\n",n);
n = n + 1;
h_dt = 1.0; //Though nonsense,
cudaMemcpyToSymbol(d_dt, &h_dt, sizeof(double)); //the weird result
} //disappear without
//the two statement
free(h_w);
return 0;
}
我的设备:K20; CUDA5编译命令:nvcc main.cu -lm -o exe -archcompute_35 -code sm_35; cuda-memcheck ./exe;典型结果:
n=0
n=1
n=2
n=3
n=4
n=5
n=6
n=7
n=8
dsa=3.741112e+117,-1.938073e-01,1.000000e+00,0,6
dsa=3.449943e+222,-1.859864e-01,1.000000e+00,1,6
dsa=-5.398272e+183,-1.681859e-01,1.000000e+00,2,6
dsa=3.317999e+214,-6.978805e-02,1.000000e+00,6,6
dsa=-2.596131e+264,-4.906721e-02,1.000000e+00,7,6
dsa=-3.011521e+154,-3.072307e-02,1.000000e+00,8,6
dsa=3.665153e+35,0.000000e+00,1.000000e+00,10,6
dsa=5.476628e+246,1.271596e-02,1.000000e+00,11,6
dsa=4.741912e+222,4.596547e-02,1.000000e+00,15,6
n=9
n=10
========= CUDA-MEMCHECK
========= ERROR SUMMARY: 0 errors
其他一些方面:
最佳答案
将CUDA5.0更新到CUDA5.5即可解决该问题(我没有尝试过更高版本)。我仍然不知道原因。据 Robert Crovella 称,这可能是 CUDA5.0 中的一个错误。不管怎样,CUDA5.5 工作得很好。特别感谢 njuffa 和 Robert Crovella。
关于在 K20 上没有 -G 选项时 CUDA C 返回不确定且奇怪的结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29421416/
我有这种来自 Google map 自动完成的奇怪行为(或者我可能错过了某事)...想法?奇怪的: 您在输入中输入某物,例如“伦敦” 您按 [ENTER] 你按下 [CLEAR] 按钮 你点击进入'输
这段代码与《Learning Java》(Oracle Press Books)一书中的代码完全一样,但它不起作用。我不明白为什么它不起作用,它应该起作用。我用 OpenJDK 和 Sun JDK 7
示例 1 中究竟发生了什么?这是如何解析的? # doesnt split on , [String]::Join(",",("aaaaa,aaaaa,aaaaa,aaaaa,aaaaa,aa
我需要获得方程式系统的解决方案。为此,我使用函数sgesv_()。 一切都很好,它使我感到解决方案的正确结果。 但是我得到一个奇怪的警告。 警告:从不兼容的指针类型传递'sgesv_'的参数3 我正在
我目前在制作动画时遇到一个奇怪的问题: [UIView animateWithDuration:3 delay:0
alert('works'); $(window).load(function () { alert('does not work'); });
我的代码: public class MyTest { public class StringSorter implements Comparator { public
我正在学习 JavaScript。尝试理解代码, function foo (){ var a = b = {name: 'Hai'}; document.write(a.name +''
这个问题不太可能帮助任何 future 的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visit
这按预期工作: [dgorur@ted ~]$ env -i env [dgorur@ted ~]$ 这样做: [dgorur@ted ~]$ env -i which date which: no
struct BLA { int size_; int size()const{ return size_; } } int x; BLA b[ 2 ]; BLA * p = &b[
我有以下代码: #test img {vertical-align: middle;} div#test { border: 1px solid green; height: 150px; li
我想大多数使用过 C/C++ 的人都对预处理器的工作原理有一定的直觉(或多或少)。直到今天我也是这么认为的,但事实证明我的直觉是错误的。故事是这样的: 今天我尝试了一些东西,但我无法解释结果。首先考虑
我想为 TnSettings 做 mock,是的,如果通过以下方法编写代码,它就可以工作,问题是我们需要为每个案例编写 mock 代码,如果我们只 mock 一次然后执行多个案例,那么第二个将报告异常
我的项目中有以下两个结构 typedef volatile struct { unsigned char rx_buf[MAX_UART_BUF]; //Input buffer over U
Regex rx = new Regex(@"[+-]"); string[] substrings = rx.Split(expression); expression = "-9a3dcb
我的两个应用程序遇到了一个奇怪的问题。这是设置: 两个 tomcat/java 应用程序,在同一个网络中运行,连接到相同的 MS-SQL-Server。一个应用程序,恰好按顺序位于 DMZ 中可从互联
我目前正在与 Android Api Lvl 8 上的 OnLongClickListener 作斗争。 拿这段代码: this.webView.setOnLongClickListener(new
这个问题不太可能帮助任何 future 的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visit
只是遇到了奇怪的事情。我有以下代码: -(void)ImageDownloadCompleat { [self performSelectorOnMainThread:@selector(up
我是一名优秀的程序员,十分优秀!