gpt4 book ai didi

matrix - (顶点着色器,mat4)均匀矩阵是否应该在CPU上预乘?

转载 作者:行者123 更新时间:2023-12-02 03:42:07 24 4
gpt4 key购买 nike

考虑典型的“朴素”顶点着色器:

in vec3 aPos;

uniform mat4 uMatCam;
uniform mat4 uMatModelView;
uniform mat4 uMatProj;

void main () {
gl_Position = uMatProj * uMatCam * uMatModelView * vec4(aPos, 1.0);
}

当然,传统观点会建议“每个顶点乘以三个 mat4,其中两个即使在当前着色器程序中的多个后续 glDrawX() 调用中也是一致的,至少这两个应该是 CPU 预乘的 -侧面,甚至可能是全部三个。”

我想知道现代 GPU 是否已将此用例优化到 CPU 端预乘不再具有性能优势的程度。当然,纯粹主义者可能会说“这取决于最终用户的 OpenGL 实现”,但对于这个用例,我们可以放心地假设它将是提供该实现的当前一代支持 OpenGL 4.2 的 nVidia 或 ATI 驱动程序。

根据您的经验,考虑到我们可能会在每次 UseProgram() 过程中“绘制”一百万个左右的顶点 - 会在每次 UseProgram() 提升时预先乘以至少前两个(透视投影和相机变换矩阵)性能达到任何显着程度?每个 Draw() 调用的所有三个怎么样?

当然,这一切都与基准测试有关......但我希望有人能够拥有基本的、基于当前一代硬件实现的见解,我错过了这可能会表明“甚至不值得一试,不要浪费你的时间”“一定要这样做,因为你当前的着色器没有预乘将是纯粹的疯狂”...想法?

最佳答案

I'm wondering whether modern-day GPUs have optimized this use-case to a degree where CPU-side premultiplication is no longer a performance benefit.

GPU 在并行操作中表现最佳。 “GPU”可以像这样优化三个顺序向量/矩阵乘法的唯一方法是,着色器编译器检测到它们是统一的,并在您发出绘制调用时在某处自行执行乘法,传递着色器结果。

因此,无论哪种情况,3 个矩阵相乘在着色器中都会变为 1。你可以自己做这些乘法,也可以不做。驱动程序可以执行此优化,也可以不执行此优化。这是可能性的图表:

            | GPU optimizes  | GPU doesn't optimize
------------|----------------|---------------------
You send 3 | Case A | Case B
matrices | |
---------------------------------------------------
You multiply| Case C | Case D
on the CPU | |
------------|----------------|---------------------

在情况 A 中,您获得的性能比代码建议的要好。在情况 B 中,您不会获得更好的性能。

案例 C 和 D 都能保证为您提供与案例 A 相同的性能。

问题不在于驱动程序是否会实现此优化。问题是,“那次表演对你来说有什么值(value)?”如果您想要这样的表演,那么您就应该自己做;这是可靠实现该性能的唯一方法。如果你不关心性能...那还有什么关系呢?

简而言之,如果您关心此优化,请自己进行。

From your experience, considering we might be "Drawing" a million or so vertices per UseProgram() pass -- would pre-multiplying at least the first two (perspective-projection and camera-transform matrices) per UseProgram() boost performance to any significant degree? What about all three per Draw() call?

可能;可能不会。这完全取决于顶点变换对渲染系统的瓶颈程度。没有在实际的渲染环境中进行测试,无法得知。

此外,将投影和相机矩阵结合起来并不是最好的主意,因为这意味着在世界空间而不是相机空间中进行照明。它还使延迟渲染变得更加困难,因为您没有纯投影矩阵来提取值。

关于matrix - (顶点着色器,mat4)均匀矩阵是否应该在CPU上预乘?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12935009/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com