gpt4 book ai didi

OpenGL 统一缓冲区 std140 布局

转载 作者:行者123 更新时间:2023-12-01 12:53:45 30 4
gpt4 key购买 nike

我试图在 GeForce 8600 GT 上通过统一 block (一切都根据 GLSL“#version 330”)将一个整数数组传递给片段着色器。

在我的应用程序方面:

int MyArray[7102];

//filling, binding, etc

glBufferData(GL_UNIFORM_BUFFER, sizeof(MyArray), MyArray, GL_DYNAMIC_DRAW);

在我的片段着色器中,我声明了如下 block :

layout (std140) uniform myblock
{
int myarray[7102];
};

问题是在 glCompileShader 成功后,glLinkProgram 返回一个错误,指出它无法绑定(bind)适当的存储资源。

一些额外的事实:

1) GL_MAX_UNIFORM_BLOCK_SIZE返回值65536

2) 如果我将元素的数量减少到 4096,它工作正常并且无论我使用“int”还是“ivec4”作为数组类型都没有区别。任何高于 4096 的值都会给我相同的“存储错误”

3) 如果我使用“shared”或“packed”一切正常

在查阅了 std140 的 GLSL 3.3 规范后,我假设对齐/填充存在问题:

“1)如果成员是标量消耗N个基 native 器单元,基对齐是N。

...

4) 如果成员是标量或向量数组,基对齐和数组stride 设置为匹配单个数组元素的基本对齐方式,根据到规则 (1)、(2) 和 (3),并四舍五入到 vec4 的基本对齐。这数组末尾可能有填充;以下成员的基本偏移量该数组被四舍五入到下一个碱基比对的倍数。”

我的问题:

1) “myblock”占用的空间是 7102*4=28408 字节的 4 倍是真的吗? IE。 std140 将 myarray 的每个成员扩展为 vec4,实际内存使用量为 7102*4*4=113632 字节,这是问题的原因吗?

2) 它与“共享”或“打包”一起工作的原因是由于优化消除了这些差距?

3) 可能是驱动程序错误?所有事实都指向“……并四舍五入到 vec4 的基本对齐”是原因,但很难接受像 int 数组这样简单的东西最终在内存限制方面的效率降低了 4 倍。

4) 如果这不是错误,那么在 std140 的情况下我应该如何组织和访问数组?我可以使用“ivec4”来优化数据分布,但是我必须牺牲性能而不是简单的 x=myarray[i] 来做 x=myarray[i/4][i%4] 来引用每个 ivec4 的各个元素?还是我遗漏了什么但有明显的解决方案?

最佳答案

1) (…) rounded up to the base alignment of a vec4? (…)

是的。

2) The reason it works with “shared” or “packed” is due to the elimination of these gaps because of optimization?

是的;只是这不是优化性能方面的明智之举。

3) Maybe it’s a driver bug?

编辑没有。 GPU 自然地使用矢量化类型。打包类型需要添加进一步的指令来解/复用向量。 在编写此答案后,GPU 架构发生了重大变化。现在的GPU都是单标量架构,设计强调强超标量矢量化。

4) If it’s not a bug, then how should I organize and access an array in case of std140?

不要为如此大的数据使用统一的缓冲对象。将数据放入 1D 纹理并使用 texelFetch 对其进行索引。

关于OpenGL 统一缓冲区 std140 布局,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10781434/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com