- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个着色器,我想在其中移动顶点着色器中的一半顶点。我试图从性能的角度决定最好的方法,因为我们正在处理超过 100,000 个顶点,所以速度至关重要。我查看了 3 种不同的方法:(伪代码,但足以给你这个想法。<complex formula>
我不能给出,但我可以说它涉及一个 sin()
函数,以及一个函数调用(只返回一个数字,但仍然是一个函数调用),以及一堆关于浮点数的基本算术)。
if (y < 0.5)
{
x += <complex formula>;
}
<complex formula>
只执行了一半,但缺点是肯定会导致分支,实际上可能比公式慢。它是最具可读性的,但在这种情况下,我们更关心速度而不是可读性。
x += step(y, 0.5) * <complex formula>;
<complex formula>
每次都被调用,并且它的结果有一半的时间被乘以 0(因此浪费了精力)。
x += (y < 0.5) ? <complex formula> : 0;
?:
导致分支?如果不是,是对等式的两边进行评估还是仅对相关的一侧进行评估?
<complex formula>
可以卸载回 CPU 而不是 GPU,但我担心它在计算 sin() 和其他操作时会变慢,这可能会导致净损失。此外,这意味着必须将另一个数字传递给着色器,这也可能导致开销。任何人都知道哪个是最好的行动方案?
step()
函数使用
?:
在内部,所以它可能不比我的第三个解决方案好,而且可能更糟,因为
<complex formula>
每次肯定都会被调用,而直
?:
可能只调用一半的时间. (还没有人回答这部分问题。)虽然避免两者并使用:
x += (1.0 - y) * <complex formula>;
y
总是 0 或 1。)仍然执行
<complex formula>
不必要的一半时间,但可能值得完全避免分支。
最佳答案
或许看看this answer .
我的猜测(这是一个性能问题:测量它!)是你最好保留 if
陈述。
原因一:理论上(如果正确调用)着色器编译器应该足够聪明,可以在分支指令和类似于 step
的指令之间做出最佳选择。函数,当它编译您的 if
时陈述。改进它的唯一方法是配置文件[1]。请注意,在此粒度级别上,它可能取决于硬件。
[1] 或者,如果您对数据的布局有特定的了解,请继续阅读...
第二个原因是着色器单元的工作方式:如果单元中的一个片段或顶点采用与其他不同的分支,则着色器单元必须采用两个分支。但是如果它们都采用相同的分支 - 另一个分支将被忽略。因此,虽然它是按单位而不是按顶点 - 仍然可以跳过昂贵的分支。
对于片段,着色器单元具有屏幕上的局部性 - 这意味着您可以在附近像素组都采用相同分支时获得最佳性能(参见我的 linked answer 中的插图)。老实说,我不知道如何将顶点分组为单位 - 但如果您的数据分组适当 - 您应该获得所需的性能优势。
最后:值得指出的是您的 <complex formula>
- 如果你说你可以手动将它从你的 HLSL 中提升 - 无论如何它很可能会被提升到基于 CPU 的预着色器中(至少在 PC 上,从内存中 Xbox 360 不支持这个,不知道PS3)。您可以通过反编译着色器来检查这一点。如果您只需要每次绘制(而不是每个顶点/片段)计算一次,那么在 CPU 上执行它可能是最好的性能。
关于optimization - HLSL 分支规避,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12460649/
假设我有一个像这样的字符串:'1 + 2 + 3 * 4' 是否可以从左到右(顺序?线性?)计算它,使其等于 24 而不 15? 我事先不知道该字符串是什么,所以它可能是“1 + 2”,也可能是“1
我在脚本中得到了这一行,它检查项目类: $('#post').attr('class'); 有没有机会,读起来像: $('#post*').attr('class'); 所以如果 ID 是 fe。 p
将我的工具链安装在与其供应商要求的目录不同的目录中后,我一直在运行一些较小的问题,通过适本地设置 COMPILER_PATH、C_INCLUDE_PATH、CPLUS_INCLUDE_PATH 和 L
我正在使用 boost::program_options,它与许多其他 C++ 库一样受到同样的困扰,甚至是 std 本身:它仍然使用 C 风格的空终止字符串,因为没有人真正喜欢弱 std::字符串.
Peter Norvig 在 PAIP 中说道: in modern lisps...eval is used less often (in fact, in Scheme there isno ev
我有一个这样工作的程序: prog.py filename -r 使用我给定的默认默认值 prog.py filename -r 0 500 20 使用 0、500 和 20 我已经成功地使用了: c
我正在使用 Java 程序进行一些图像处理,目前我正在处理一些相当大的图像(大约十亿像素)。 毫不奇怪,由于以下异常,我无法做很多事情: Exception: java.lang.IllegalArg
所以我想用Scrapy做一个steam游戏的刷屏器。我不知道为什么有些游戏没有显示在结果 csv/json 中。我认为这是因为年龄验证表。 我真的很想看看问题出在哪里......但一切似乎都应该有效。
我正在尝试控制我的表单以及用户如何通过表单元素的 tabindex 属性与它们交互。我的所有元素都指定了 tabindex,我希望这个值得到尊重并得到正确使用。 我目前正在 Mac/Firefox 上
我将实现一个简单的链表。这是我到目前为止的(工作)代码: pub struct LinkedList { start: Option>>, } impl LinkedList { pu
我遇到了 IE8 的 31 个 CSS 文件限制。 我在想,除非我弄错了,否则 Assets 管道会结合我的 CSS 文件进行生产,因此这不会成为问题。 然而,当我为 IE 调试时,这是一个问题。有没
我正在尝试在 Yacc/Bison 中创建一个 LALR(1) 解析器,它可以接受具有灵活语法的命令。一个例子是通过调整室温( float )、 window 位置(整数)和吊扇(枚举)来控制房屋中的
为了调试,我想用 JSON.stringify(myobject) 序列化 javascript 对象。但这给出了: TypeError: Converting circular structure
我正在使用交叉 musl 编译器(相同版本)构建 native musl 编译器 (GCC 8.3.0),但出现此错误: In file included from /usr/local/x86_64
我是一名优秀的程序员,十分优秀!