- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
考虑典型的“朴素”顶点着色器:
in vec3 aPos;
uniform mat4 uMatCam;
uniform mat4 uMatModelView;
uniform mat4 uMatProj;
void main () {
gl_Position = uMatProj * uMatCam * uMatModelView * vec4(aPos, 1.0);
}
当然,传统观点会建议“每个顶点乘以三个 mat4,其中两个即使在当前着色器程序中的多个后续 glDrawX() 调用中也是一致的,至少这两个应该是 CPU 预乘的 -侧面,甚至可能是全部三个。”
我想知道现代 GPU 是否已将此用例优化到 CPU 端预乘不再具有性能优势的程度。当然,纯粹主义者可能会说“这取决于最终用户的 OpenGL 实现”,但对于这个用例,我们可以放心地假设它将是提供该实现的当前一代支持 OpenGL 4.2 的 nVidia 或 ATI 驱动程序。
根据您的经验,考虑到我们可能会在每次 UseProgram() 过程中“绘制”一百万个左右的顶点 - 会在每次 UseProgram() 提升时预先乘以至少前两个(透视投影和相机变换矩阵)性能达到任何显着程度?每个 Draw() 调用的所有三个怎么样?
当然,这一切都与基准测试有关......但我希望有人能够拥有基本的、基于当前一代硬件实现的见解,我错过了这可能会表明“甚至不值得一试,不要浪费你的时间”或“一定要这样做,因为你当前的着色器没有预乘将是纯粹的疯狂”...想法?
最佳答案
I'm wondering whether modern-day GPUs have optimized this use-case to a degree where CPU-side premultiplication is no longer a performance benefit.
GPU 在并行操作中表现最佳。 “GPU”可以像这样优化三个顺序向量/矩阵乘法的唯一方法是,着色器编译器检测到它们是统一的,并在您发出绘制调用时在某处自行执行乘法,传递着色器结果。
因此,无论哪种情况,3 个矩阵相乘在着色器中都会变为 1。你可以自己做这些乘法,也可以不做。驱动程序可以执行此优化,也可以不执行此优化。这是可能性的图表:
| GPU optimizes | GPU doesn't optimize
------------|----------------|---------------------
You send 3 | Case A | Case B
matrices | |
---------------------------------------------------
You multiply| Case C | Case D
on the CPU | |
------------|----------------|---------------------
在情况 A 中,您获得的性能比代码建议的要好。在情况 B 中,您不会获得更好的性能。
案例 C 和 D 都能保证为您提供与案例 A 相同的性能。
问题不在于驱动程序是否会实现此优化。问题是,“那次表演对你来说有什么值(value)?”如果您想要这样的表演,那么您就应该自己做;这是可靠实现该性能的唯一方法。如果你不关心性能...那还有什么关系呢?
简而言之,如果您关心此优化,请自己进行。
From your experience, considering we might be "Drawing" a million or so vertices per UseProgram() pass -- would pre-multiplying at least the first two (perspective-projection and camera-transform matrices) per UseProgram() boost performance to any significant degree? What about all three per Draw() call?
可能;可能不会。这完全取决于顶点变换对渲染系统的瓶颈程度。没有在实际的渲染环境中进行测试,无法得知。
此外,将投影和相机矩阵结合起来并不是最好的主意,因为这意味着在世界空间而不是相机空间中进行照明。它还使延迟渲染变得更加困难,因为您没有纯投影矩阵来提取值。
关于matrix - (顶点着色器,mat4)均匀矩阵是否应该在CPU上预乘?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12935009/
我正在尝试在Elasticsearch中返回的值中考虑地理位置的接近性。我希望近距离比某些字段(例如legal_name)重要,但比其他字段重要。 从文档看来,当前的方法是使用distance_fea
我是Elasticsearch的初学者,今天在进行“多与或”查询时遇到问题。 我有一个SQL查询,需要在Elastic中进行转换: WHERE host_id = 999 AND psh_pid =
智能指针应该/可以在函数中通过引用传递吗? 即: void foo(const std::weak_ptr& x) 最佳答案 当然你可以通过const&传递一个智能指针。 这样做也是有原因的: 如果接
我想执行与以下MYSQL查询等效的查询 SELECT http_user, http_req_method, dst dst_port count(*) as total FROM my_table
我用这两个查询进行测试 用must查询 { "size": 200, "from": 0, "query": { "bool": { "must": [ { "mat
我仍在研究 Pro Android 2 的简短服务示例(第 304 页)同样,服务示例由两个类组成:如下所示的 BackgroundService.java 和如下所示的 MainActivity.j
给定标记 like this : header really_wide_table..........................................
根据 shouldJS 上的文档网站我应该能够做到这一点: ''.should.be.empty(); ChaiJS网站没有使用 should 语法的示例,但它列出了 expect 并且上面的示例似乎
我在 Stack Overflow 上读到一些 C 函数是“过时的”或“应该避免”。你能给我一些这种功能的例子以及原因吗? 这些功能有哪些替代方案? 我们可以安全地使用它们 - 有什么好的做法吗? 最
在 C++11 中,可变参数模板允许使用任意数量的参数和省略号运算符 ... 调用函数。允许该可变参数函数对每个参数做一些事情,即使每个参数的事情不是一样的: template void dummy(
我在我从事的项目之一上将Shoulda与Test::Unit结合使用。我遇到的问题是我最近更改了此设置: class MyModel :update end 以前,我的(通过)测试看起来像这样: c
我该如何做 or使用 chai.should 进行测试? 例如就像是 total.should.equal(4).or.equal(5) 或者 total.should.equal.any(4,5)
如果您要将存储库 B 中的更改 merge 到存储库 A 中,是否应该 merge .hgtags 中的更改? 存储库 B 可能具有 A 中没有的标签 1.01、1.02、1.03。为什么要将这些 m
我正在尝试执行X AND(y OR z)的查询 我需要获得该代理为上市代理或卖方的所有已售属性(property)。 我只用 bool(boolean) 值就可以得到9324个结果。当我添加 bool
我要离开 this教程,尝试使用 Mocha、Supertest 和 Should.js 进行测试。 我有以下基本测试来通过 PUT 创建用户接受 header 中数据的端点。 describe('U
我正在尝试为 Web 应用程序编写一些 UI 测试,但有一些复杂的问题希望您能帮助我解决。 首先,该应用程序有两种模式。其中一种模式是“训练”,另一种是“现场”。在实时模式下,数据直接从我们的数据库中
我有一个规范: require 'spec_helper' # hmm... I need to include it here because if I include it inside desc
我正在尝试用这个测试我在 Rails 中的更新操作: context "on PUT to :update" do setup do @countdown = Factory(:count
我还没有找到合适的答案: onclick="..." 中是否应该转义 &(& 符号)? (或者就此而言,在每个 HTML 属性中?) 我已经尝试在 jsFiddle 和 W3C 的验证器上运行转义和非
import java.applet.*; import java.awt.*; import java.awt.event.*; public class Main extends Applet i
我是一名优秀的程序员,十分优秀!