gpt4 book ai didi

optimization - HLSL 分支规避

转载 作者:行者123 更新时间:2023-12-03 15:47:37 30 4
gpt4 key购买 nike

我有一个着色器,我想在其中移动顶点着色器中的一半顶点。我试图从性能的角度决定最好的方法,因为我们正在处理超过 100,000 个顶点,所以速度至关重要。我查看了 3 种不同的方法:(伪代码,但足以给你这个想法。<complex formula> 我不能给出,但我可以说它涉及一个 sin() 函数,以及一个函数调用(只返回一个数字,但仍然是一个函数调用),以及一堆关于浮点数的基本算术)。

if (y < 0.5)
{
x += <complex formula>;
}

这样做的好处是 <complex formula>只执行了一半,但缺点是肯定会导致分支,实际上可能比公式慢。它是最具可读性的,但在这种情况下,我们更关心速度而不是可读性。
x += step(y, 0.5) * <complex formula>;

使用 HLSL 的 step() 函数(如果第一个参数较大则返回 0,如果较小则返回 1),您可以消除分支,但现在 <complex formula>每次都被调用,并且它的结果有一半的时间被乘以 0(因此浪费了精力)。
x += (y < 0.5) ? <complex formula> : 0;

这个我不知道。是否 ?:导致分支?如果不是,是对等式的两边进行评估还是仅对相关的一侧进行评估?

最后一种可能是 <complex formula>可以卸载回 CPU 而不是 GPU,但我担心它在计算 sin() 和其他操作时会变慢,这可能会导致净损失。此外,这意味着必须将另一个数字传递给着色器,这也可能导致开销。任何人都知道哪个是最好的行动方案?

附录:

根据 http://msdn.microsoft.com/en-us/library/windows/desktop/bb509665%28v=vs.85%29.aspx
step()函数使用 ?:在内部,所以它可能不比我的第三个解决方案好,而且可能更糟,因为 <complex formula>每次肯定都会被调用,而直 ?: 可能只调用一半的时间. (还没有人回答这部分问题。)虽然避免两者并使用:
x += (1.0 - y) * <complex formula>;

可能比它们中的任何一个都好,因为在任何地方都没有进行比较。 (而且 y 总是 0 或 1。)仍然执行 <complex formula>不必要的一半时间,但可能值得完全避免分支。

最佳答案

或许看看this answer .

我的猜测(这是一个性能问题:测量它!)是你最好保留 if陈述。

原因一:理论上(如果正确调用)着色器编译器应该足够聪明,可以在分支指令和类似于 step 的指令之间做出最佳选择。函数,当它编译您的 if 时陈述。改进它的唯一方法是配置文件[1]。请注意,在此粒度级别上,它可能取决于硬件。

[1] 或者,如果您对数据的布局有特定的了解,请继续阅读...

第二个原因是着色器单元的工作方式:如果单元中的一个片段或顶点采用与其他不同的分支,则着色器单元必须采用两个分支。但是如果它们都采用相同的分支 - 另一个分支将被忽略。因此,虽然它是按单位而不是按顶点 - 仍然可以跳过昂贵的分支。

对于片段,着色器单元具有屏幕上的局部性 - 这意味着您可以在附近像素组都采用相同分支时获得最佳性能(参见我的 linked answer 中的插图)。老实说,我不知道如何将顶点分组为单位 - 但如果您的数据分组适当 - 您应该获得所需的性能优势。

最后:值得指出的是您的 <complex formula> - 如果你说你可以手动将它从你的 HLSL 中提升 - 无论如何它很可能会被提升到基于 CPU 的预着色器中(至少在 PC 上,从内存中 Xbox 360 不支持这个,不知道PS3)。您可以通过反编译着色器来检查这一点。如果您只需要每次绘制(而不是每个顶点/片段)计算一次,那么在 CPU 上执行它可能是最好的性能。

关于optimization - HLSL 分支规避,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12460649/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com