- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有 5 个大型数组 A(N*5)、B(N*5)、C(N*5)、D(N*5)、E(N*2)数字 5 和 2 表示这些变量在不同平面/轴中的分量。这就是我以这种方式构建数组的原因,这样我就可以在编写代码时可视化数据。N ~ 200^3 ~ 8e06 个节点
例如:这是我的内核最简单的形式,我在其中对全局内存进行所有计算。
#define N 200*200*200
__global__ void kernel(doube *A, double *B, double *C,
double *D, double *E, double *res1, double *res2,
double *res3, double *res4 )
{
int a, idx=threadIdx.x + blockIdx.x * blockDim.x;
if(idx>=N) {return;}
res1[idx]=0.; res2[idx]=0.;
res3[idx]=0.; res4[idx]=0.
for (a=0; a<5; a++)
{
res1[idx] += A[idx*5+a]*B[idx*5+a]+C[idx*5+a] ;
res2[idx] += D[idx*5+a]*C[idx*5+a]+E[idx*2+0] ;
res3[idx] += E[idx*2+0]*D[idx*5+a]-C[idx*5+a] ;
res4[idx] += C[idx*5+a]*E[idx*2+1]-D[idx*5+a] ;
}
}
我知道可以去掉“for”循环,但我把它留在这里,因为这样看代码很方便。这行得通,但显然即使在删除“for”循环后,它对于 Tesla K40 卡来说也是极其低效和缓慢的。 “for”循环中显示的算法只是为了提供一个想法,实际的计算要长得多,并且与 res1、res2... 混杂在一起。
我已经实现了以下改进有限,但是我想通过共享内存的过载进一步改进它。
#define THREADS_PER_BLOCK 256
__global__ void kernel_shared(doube *A, double *B, double *C,
double *D, double *E, double *res1, double *res2,
double *res3, double *res4 )
{
int a, idx=threadIdx.x + blockIdx.x * blockDim.x;
int ix = threadIdx.x;
__shared__ double A_sh[5*THREADS_PER_BLOCK];
__shared__ double B_sh[5*THREADS_PER_BLOCK];
__shared__ double C_sh[5*THREADS_PER_BLOCK];
__shared__ double D_sh[5*THREADS_PER_BLOCK];
__shared__ double E_sh[2*THREADS_PER_BLOCK];
//Ofcourse this will not work for all arrays in shared memory;
so I am allowed to put any 2 or 3 variables (As & Bs) of
my choice in shared and leave rest in the global memory.
for(int a=0; a<5; a++)
{
A_sh[ix*5 + a] = A[idx*5 + a] ;
B_sh[ix*5 + a] = B[idx*5 + a] ;
}
__syncthreads();
if(idx>=N) {return;}
res1[idx]=0.; res2[idx]=0.;
res3[idx]=0.; res4[idx]=0.
for (a=0; a<5; a++)
{
res1[idx] += A_sh[ix*5+a]*B_sh[ix*5+a]+C[idx*5+a];
res2[idx] += B_sh[ix*5+a]*C[idx*5+a]+E[idx*2+0] ;
res3[idx] += E[idx*2+0]*D[idx*5+a]-C[idx*5+a] ;
res4[idx] += B_sh[ix*5+a]*E[idx*2+1]-D[idx*5+a] ;
}
}
这有点帮助,但我想实现其中一项减少方法(没有银行冲突)来提高性能,我可以把所有我共享的变量(可能是平铺方法)然后进行计算部分。我在 CUDA_Sample 文件夹中看到了缩减示例,但是那个示例仅对共享中的一个 vector 求和,而不涉及共享内存中多个数组的任何复杂算术。我将不胜感激任何帮助或建议来改进我现有的 kernel_shared 方法以包括减少方法。
最佳答案
检查您的初始内核,我们注意到对于 a
的每个值,您在计算要加起来的四个增量时最多使用 12 个值(可能少于 12 个,我没有准确计数)。这一切都非常适合您的寄存器文件 - 即使是 double 值: 12 * sizeof(double) ,加上 4 * sizeof(double) 中间结果使每个线程有 32 个 4 字节寄存器。即使每个 block 有 1024 个线程,也远远超出了限制。
现在,你的内核运行缓慢的原因主要是
这是您可以在任何 CUDA 编程演示中读到的内容;我只是简单地说,不是每个线程自己处理几个连续的数组元素,而是应该将其交错在 warp 的 channel 之间,或者更好的是在 block 的线程之间。因此,而不是线程全局索引 idx 处理
5 * idx
5 * idx + 1
...
5 * idx + 4
让它处理
5 * blockDim.x * blockIdx.x + threadIdx.x
5 * blockDim.x * blockIdx.x + threadIdx.x + blockDim.x
...
5 * blockDim.x * blockIdx.x + threadIdx.x + 4 * blockDim.x
这样,每当线程读取或写入时,它们的读取和写入合并。在您的情况下,这可能有点棘手,因为您的某些访问模式略有不同,但您明白了。
这个问题更具体到你的情况。你看,你真的不需要在 每一个 添加后更改全局的 resN[idx]
值,而且你当然不关心阅读每当你要写的时候,它就在那里。正如您的内核所代表的那样,单个线程为 resN[idx]
计算一个新值 - 因此它可以将寄存器中的内容相加,然后写入 resN[idx]
当它完成时(甚至不看它的地址)。
如果您按照我在第 1 点中的建议更改内存访问模式,则实现第 2 点中的建议会变得更加棘手,因为您需要将同一 warp 中的多个 channel 的值相加,并且可能使确保您不会跨越与单个计算相关的读取的扭曲边界。要了解如何执行此操作,我建议您查看 this presentation关于基于洗牌的减少。
关于c++ - CUDA:重载共享内存以实现多个数组的缩减方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47896008/
我想了解 Ruby 方法 methods() 是如何工作的。 我尝试使用“ruby 方法”在 Google 上搜索,但这不是我需要的。 我也看过 ruby-doc.org,但我没有找到这种方法。
Test 方法 对指定的字符串执行一个正则表达式搜索,并返回一个 Boolean 值指示是否找到匹配的模式。 object.Test(string) 参数 object 必选项。总是一个
Replace 方法 替换在正则表达式查找中找到的文本。 object.Replace(string1, string2) 参数 object 必选项。总是一个 RegExp 对象的名称。
Raise 方法 生成运行时错误 object.Raise(number, source, description, helpfile, helpcontext) 参数 object 应为
Execute 方法 对指定的字符串执行正则表达式搜索。 object.Execute(string) 参数 object 必选项。总是一个 RegExp 对象的名称。 string
Clear 方法 清除 Err 对象的所有属性设置。 object.Clear object 应为 Err 对象的名称。 说明 在错误处理后,使用 Clear 显式地清除 Err 对象。此
CopyFile 方法 将一个或多个文件从某位置复制到另一位置。 object.CopyFile source, destination[, overwrite] 参数 object 必选
Copy 方法 将指定的文件或文件夹从某位置复制到另一位置。 object.Copy destination[, overwrite] 参数 object 必选项。应为 File 或 F
Close 方法 关闭打开的 TextStream 文件。 object.Close object 应为 TextStream 对象的名称。 说明 下面例子举例说明如何使用 Close 方
BuildPath 方法 向现有路径后添加名称。 object.BuildPath(path, name) 参数 object 必选项。应为 FileSystemObject 对象的名称
GetFolder 方法 返回与指定的路径中某文件夹相应的 Folder 对象。 object.GetFolder(folderspec) 参数 object 必选项。应为 FileSy
GetFileName 方法 返回指定路径(不是指定驱动器路径部分)的最后一个文件或文件夹。 object.GetFileName(pathspec) 参数 object 必选项。应为
GetFile 方法 返回与指定路径中某文件相应的 File 对象。 object.GetFile(filespec) 参数 object 必选项。应为 FileSystemObject
GetExtensionName 方法 返回字符串,该字符串包含路径最后一个组成部分的扩展名。 object.GetExtensionName(path) 参数 object 必选项。应
GetDriveName 方法 返回包含指定路径中驱动器名的字符串。 object.GetDriveName(path) 参数 object 必选项。应为 FileSystemObjec
GetDrive 方法 返回与指定的路径中驱动器相对应的 Drive 对象。 object.GetDrive drivespec 参数 object 必选项。应为 FileSystemO
GetBaseName 方法 返回字符串,其中包含文件的基本名 (不带扩展名), 或者提供的路径说明中的文件夹。 object.GetBaseName(path) 参数 object 必
GetAbsolutePathName 方法 从提供的指定路径中返回完整且含义明确的路径。 object.GetAbsolutePathName(pathspec) 参数 object
FolderExists 方法 如果指定的文件夹存在,则返回 True;否则返回 False。 object.FolderExists(folderspec) 参数 object 必选项
FileExists 方法 如果指定的文件存在返回 True;否则返回 False。 object.FileExists(filespec) 参数 object 必选项。应为 FileS
我是一名优秀的程序员,十分优秀!