gpt4 book ai didi

buffer - Metal 实例渲染——几个问题

转载 作者:行者123 更新时间:2023-12-05 02:10:45 26 4
gpt4 key购买 nike

我目前正在研究 Apple 的 Metal API,但我无法理解如何实现大量实例的渲染,因为每个实例都需要有自己的(部分)缓冲区。

假设我想绘制大约 50.000 个模型实例(我承认这很荒谬。)每个实例都将其定位和骨骼动画数据存储在缓冲区中,假设每个实例有 50 个关节。现在考虑到最多可以同时渲染三个帧,我需要这些实例缓冲区乘以帧数。

这将导致相当荒谬的缓冲区大小,仅用于绘制实例。另外,应该如何实现不同数量的实例,如果当前实例不能容纳要呈现的所有对象的数据,则分配更大的缓冲区?只需决定每帧的最大实例数?

我研究过的所有文章和教程似乎都表明:场景中存在最大数量的对象。

最佳答案

让我们来计算一下。为了便于讨论,我们将忽略静态网格几何体的大小和其他并非每帧都更新的数据(如反向绑定(bind)矩阵,如果您正在执行矩阵调色板蒙皮)。每个皮肤实例数据缓冲区有多大?

Instance count * joint count * elements per skinning matrix * bytes per matrix element

50,000 * 50 * 12 * 4 = 120 MB

(我忽略了每帧可能不同的其他因素,因此如果有帮助,请将这些数字替换为真实数据的数量级。其余分析仍然适用。)

所以是的,有相当大的空间,但不一定不可行。我们可能会选择回到双缓冲而不是三缓冲所有内容,将所需的总空间从 360 MB 减少到 240 MB。

我们还假设我们正在使用 3x4 矩阵进行矩阵调色板蒙皮。我们可以使用 dual quaternion skinning 再次将所需空间减半。 .

这里的一个问题是,如果我们在独立的 GPU 上运行,将每帧 60 MB 的蒙皮数据传输到 GPU 会消耗大量带宽。因此,我们可能会考虑将我们的联合计算转移到 GPU。在具有共享内存架构的 iOS 上,这不是一个问题。无论哪种方式,我们都希望了解如何计算变换层次结构,因为如果每个关节在每一帧都移动,我们将进行大量乘法运算。

至于变化的实例数,我们绝对不想做的一件事是每帧重新分配新的缓冲区。相反,我们可以重新分配缓冲区,增加其大小 geometrically ,当我们注意到实例数量超过了我们缓冲区的当前最大容量时。

或者,我们可以采用“分页”方法并将实例拆分到多个缓冲区,每个缓冲区可以容纳一些大量的实例,并且一旦 GPU 被添加到可重复使用的缓冲池中,它们就会被回收从他们那里完成渲染。这确实需要将渲染拆分为多个绘制调用(除非我们可能正在使用参数缓冲区),但是发出 10 个实例化绘制调用(每个具有 1/10 的实例)的开销与时间相比可以忽略不计需要实际渲染。

我们还可以考虑使用 MTLHeap 来创建 transient 缓冲区,这比直接从我们的设备分配缓冲区成本更低,但这仍然需要选择一个合理的初始上限,并根据实例的最大数量增长/重新分配增加。

归根结底,基准胜过理论。自然地,您应该从分析您的数据开始,就像我们在这里尝试做的那样,但是构建一个测试应用程序并将这些想法付诸实践,注意实际出现问题的地方,是确定您需要多少优化的唯一真正方法在您的目标平台上顺利运行。

关于buffer - Metal 实例渲染——几个问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58226952/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com