gpt4 book ai didi

java - 如何将结构传递给 JCuda 中的内核

转载 作者:行者123 更新时间:2023-12-01 18:14:01 24 4
gpt4 key购买 nike

我已经看过这个http://www.javacodegeeks.com/2011/10/gpgpu-with-jcuda-good-bad-and-ugly.html这说我必须修改我的内核以仅采用一维数组。但是我拒绝相信在 JCuda 中创建结构并将其复制到设备内存是不可能的。

我想通常的实现是创建一个扩展一些 native api 的案例类(scala 术语),然后可以将其转换为可以安全传递到内核的结构。不幸的是,我在谷歌上没有找到任何东西,因此提出了这个问题。

最佳答案

(这里是 JCuda 的作者(请不要“JCUDA”))

正如评论链接的论坛帖子中所述:在 CUDA 内核中使用结构并从 JCuda 端填充它们并非不可能。它只是非常复杂,而且很少有益。

由于在 GPU 编程中使用 struct 几乎没有什么好处,因此您将不得不引用在搜索两者之间的差异时会发现的结果

"Array Of Structures" versus "Structure Of Arrays".



通常,由于改进了内存合并,后者更适合 GPU 计算,但这超出了我在这个答案中可以深刻总结的范围。在这里,我只总结一下为什么在 GPU 计算中使用结构体一般来说有点困难,在 JCuda/Java 中尤其困难。

在纯 C 中,结构(理论上!)非常简单,关于内存布局。想象一个像这样的结构
struct Vertex {
short a;
float x;
float y;
float z;
short b;
};

现在您可以创建这些结构的数组:
Vertex* vertices = (Vertex*)malloc(n*sizeof(Vertex));

这些结构将保证被布置为一个连续的内存块:
            |   vertices[0]      ||   vertices[1]      |
| || |
vertices -> [ a| x | y | z | b][ a| x | y | z | b]....

由于 CUDA 内核和 C 代码是用同一个编译器编译的,所以没有太多的思考空间。主机端说“这是一些内存,将其解释为 Vertex 对象”,内核将接收相同的内存并使用它。

尽管如此,即使在纯 C 语言中,实际上也存在一些意想不到的问题。编译器经常会引入 填充 进入这些结构,实现一定的 路线 .因此,示例结构实际上可能具有如下布局:
struct Vertex {
short a; // 2 bytes
char PADDING_0 // Padding byte
char PADDING_1 // Padding byte
float x; // 4 bytes
float y; // 4 bytes
float z; // 4 bytes
short b; // 2 bytes
char PADDING_2 // Padding byte
char PADDING_3 // Padding byte
};

为了确保结构与 32 位(4 字节)字边界对齐,可以执行类似的操作。此外,某些编译指示和编译器指令可能会影响这种对齐方式。 CUDA 还更喜欢某些内存对齐,因此这些指令在 CUDA header 中大量使用。

简而言之:当您定义 struct在 C 中,然后打印 sizeof(YourStruct) (或结构的实际布局)到控制台,您将很难预测它将实际打印什么。期待一些惊喜。

在 JCuda/Java 中,世界是不同的。根本没有 struct s。当您创建一个 Java 类时
class Vertex {
short a;
float x;
float y;
float z;
short b;
}

然后创建一个数组
Vertex vertices[2] = new Vertex[2];
vertices[0] = new Vertex();
vertices[1] = new Vertex();

那么这些 Vertex对象可以任意分散在内存中。你甚至不知道一个有多大 Vertex对象是,并且几乎无法找到它。因此,试图在 JCuda 中创建一个结构数组并将其传递给 CUDA 内核根本没有意义。

但是,如上所述:它仍然是可能的,以某种形式。 如果 您知道您的结构将在 CUDA 内核中具有的内存布局,然后您可以创建一个与此结构布局“兼容”的内存块,并从 Java 端填充它。对于像 struct Vertex 这样的东西上面提到过,这可能大致(涉及一些伪代码)如下所示:
// 1 short + 3 floats + 1 short, no paddings
int sizeOfVertex = 2 + 4 + 4 + 4 + 2;

// Allocate data for 2 vertices
ByteBuffer data = ByteBuffer.allocateDirect(sizeOfVertex * 2);

// Set vertices[0].a and vertices[0].x and vertices[0].y
data.position(0).asShortBuffer().put(0, a0);
data.position(2).asFloatBuffer().put(0, x0);
data.position(2).asFloatBuffer().put(1, y0);

// Set vertices[1].a and vertices[1].x and vertices[1].y
data.position(sizeOfVertex+0).asShortBuffer().put(0, a1);
data.position(sizeOfVertex+2).asFloatBuffer().put(0, x1);
data.position(sizeOfVertex+2).asFloatBuffer().put(1, y1);

// Copy the Vertex data to the device
cudaMemcpy(deviceData, Pointer.to(data), cudaMemcpyHostToDevice);

它基本上归结为将内存保存在 ByteBuffer 中。 ,并手动访问与所需结构的所需字段相对应的内存区域。

然而,一个 警告 :您必须考虑在多个 CUDA-C 编译器版本或平台之间无法完美移植的可能性。当您在 32 位 Linux 机器和 64 位 Windows 机器上编译内核(包含 struct 定义)时,结构布局 可能有所不同(您的 Java 代码必须意识到这一点)。

(注意:可以定义接口(interface)来简化这些访问。对于 JOCL ,我尝试创建感觉更像 C 结构的实用程序类,并在某种程度上自动化复制过程。但无论如何,这将是不方便的(并没有达到非常好的性能)与普通 C 相比)

关于java - 如何将结构传递给 JCuda 中的内核,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30838019/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com