OpenGLRHI优化

转载作者：撒哈拉更新时间：2024-10-14 12:26:49

59

4

前言

随着Vulkan的普及，OpenGL已经在被慢慢淘汰，更轻的API调用可以节省不少性能，尤其是在移动平台上，可以减少CPU开销，进而减少功耗。看起来很完美，但是问题是目前移动平台Vulkan驱动存在很多兼容性问题，大家主流的做法都是通过白名单的方式去开Vulkan，所以目前我们还是要继续以OpenGL为主。此文的目的是笔者在优化OpenGL的时候积累的一些经验，因为使用的引擎是UE4，所以这里的优化是以UE4展开的，当然大部分优化都是通用的.

。

优化

在诸多API中，耗时比较高的有如下这些。

设置texture
设置buffer
设置uniform、uniform buffer
设置program
更新texture
更新buffer
编译shader

。

其它API也有开销，但是不是特别明显或者尽量避免即可（比如设置render target），可以针对性做些优化，一般状态缓存就能比较好的解决问题.

。

因为移动平台目前主流机器都是TBDR构架，不同平台有自己的减少overdraw的策略，比如高通的LRZ、ARM的FPK以及PowerVR的HSR技术。所以我们排序可以以渲染状态为主来排序，当然老的机器上因为实现不好，可能还是按距离排序能减少更多overdraw。接下来我们针对上面提到的开销大的API针对性做优化.

。

设置texture

尽量Pack纹理通道，比如Normal使用两个通道
使用Atlas合并贴图
使用Texture2DArray合并贴图
将通用的纹理固定到特定slot上，比如shadow map，reflection texture，cluster shading 相关buffer等

SHADER_PARAMETER_TEXTURE_EX(Texture2D, DirectionalLightShadowTexture, 3) 。

UE每个DC设置完后会把没用到的texture置成None，这样是为了解决某些驱动的问题，可以优化，太过于保守了。

。

设置Buffer

相关性比较强的buffer尽量放到一起，比如normal和tangent
使用大buffer+offset的方式管理buffer，这个在后面更新buffer会详细讲解

。

设置uniform、unform buffer

在4.21之前，ES31下面是完全使用uniform buffer，从4.21之后可以使用emulated uniform buffer，这个东西就是你上层设置更新还是使用的uniform buffer的接口，但是实际上底层用的是uniform。按官方的说法是可以节省大量的内存并且会提升性能。

。

但是实际上我们测试下来开销还是很高，因为设置的uniform数量会变很多，那么有没有更好的优化方式呢？当然是有的，既然是想省内存和性能，那么我们可以使用混合的方式，让uniform和uniform buffer共存使用。哪些适合用uniform buffer呢，像View、DirectionalLight、Shadow这种per frame或者multi frame的就适合，因为数量少，但是像Primitive这种数量特别大的就不适合.

。

另外UE本身实现的emulated uniform buffer因为在使用的时候并没有把数据完全Pack起来，这个地方也可以在编译期将它们pack到一起并记录下来运行时拷贝到对应的offset处.

。

优化前。

优化后。

#define View_IndirectLightingCacheShowFlag (pc0_h[11].x) 。

#define View_ReflectionEnvironmentRoughnessMixingScaleBiasAndLargestWeight (pc0_h[10].xyz) 。

#define View_HighResolutionReflectionCubemapMaxMip (pc0_h[9].x) 。

#define View_ReflectionCubemapMaxMip (pc0_h[8].x) 。

#define View_SkyLightColor (pc0_h[7].xyzw) 。

#define View_NormalCurvatureToRoughnessScaleBias (pc0_h[6].xyz) 。

#define View_IndirectLightingColorScale (pc0_h[5].xyz) 。

#define View_CullingSign (pc0_h[4].x) 。

#define View_PreExposure (pc0_h[3].x) 。

#define View_ViewSizeAndInvSize (pc0_h[2].xyzw) 。

#define View_ViewRectMin (pc0_h[1].xyzw) 。

#define View_PreViewTranslation (pc0_h[0].xyz) 。

uniform highp vec4 pc0_h[12],

layout(std140) uniform pb0 。

{ 。

vec4 Padding0[76],

　highp vec3 View_PreViewTranslation,

float PaddingF1228_0,

vec4 Padding1228[63],

vec4 View_ViewRectMin,

highp vec4 View_ViewSizeAndInvSize,

vec4 Padding2272[4],

float PaddingB2272_0,

highp float View_PreExposure,

float PaddingF2344_0,

float PaddingF2344_1,

vec4 Padding2344[6],

float PaddingB2344_0,

float PaddingB2344_1,

float PaddingB2344_2,

highp float View_CullingSign,

vec4 Padding2464[13],

highp vec3 View_IndirectLightingColorScale,

float PaddingF2684_0,

vec4 Padding2684[54],

highp float View_IndirectLightingCacheShowFlag,

} View,

#define Primitive_LightingChannelMask (pc2_u[0].x) 。

#define Primitive_UseSingleSampleShadowFromStationaryLights (pc2_h[1].x) 。

#define Primitive_InvNonUniformScaleAndDeterminantSign (pc2_h[0].xyzw) 。

uniform uvec4 pc2_u[1],

uniform highp vec4 pc2_h[3],

#define Primitive_PrimaryPrecomputedShadowMaskValue (pc2_h[1].z) 。

#define Primitive_LightingChannelMask (floatBitsToUint(pc2_h[1].y)) 。

#define Primitive_UseSingleSampleShadowFromStationaryLights (pc2_h[1].x) 。

#define Primitive_InvNonUniformScaleAndDeterminantSign (pc2_h[0].xyzw) 。

uniform highp vec4 pc2_h[2],

。

可以看到View使用了uniform buffer，而Primitve还是使用uniform，但是变量数量从4个vec4减少到了两个vec4.

。

设置Program

尽量减少program的数量，比如一些简单的宏可以通过?运算符之类来避免，另外是通过uniform的方式来代替宏，当然这个需要评估，因为可能会造成register spilling以及降低效率.

。

更新纹理

在开启了texture streaming之后并且纹理数量过多的情况下会导致纹理更新的消耗比较大，可以尝试以下优化:

UE本身使用了PBO来做纹理更新，这个在移动平台上没必要的，还额外多了一次上传PBO的开销。
另外在开启RHI情况下会有一次额外的从Render到RHI的纹理数据拷贝，这个也可以优化掉。
OpenGL本身支持multi context，可以单独起一个线程来做纹理的上传。

。

更新Buffer

如果你的buffer数量很多另外又需要频率的更新，这个时候在一些稍微老些的机器上（888及以下机器）很容易遇到更新buffer的过高耗时和卡顿，我们在之前的文章里面有写过.

只不过当时的文章比较久了，后面又有新的实现，现在是除了UAV之外的所有buffer都可以使用大buffer+offset方式访问内存，这个给RHI减少10%~20%的开销.

glDrawRangeElements、glDrawElements 中有start index
texture buffer glTexBufferRangeEXT 支持offset,这个主要是ISM、HISM中的instance数据会用到。

。

Shader编译

Shader编译是很耗时的操作，目前大家常见的做法就是提前收集好PSO并预热，但是很难覆盖完整，如果直接在RHI线程编译会导致卡顿，这个时候也可以复用GL的多context机制进行异步编译。但是这样会引入闪烁，需要去做平衡.

。

总结

上面列了一些OpengGL开销较大的函数并针对性做了优化，其它API也可以通过cache机器等来做优化，如果按照上面的思路都优化完成，相信你的GL性能一定会有不错的提升以及更低的功耗.

。

参考

https://www.unrealengine.com/en-US/blog/unreal-engine-4-21-released
https://registry.khronos.org/OpenGL/extensions/EXT/EXT_texture_buffer_object.txt

。

最后此篇关于OpenGLRHI优化的文章就讲到这里了,如果你想了解更多关于OpenGLRHI优化的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

59

4

0

文章推荐： AOT漫谈专题(第三篇):如何获取C#程序的CPU利用率

文章推荐： .NET内存管理两种有效的资源释放方式

文章推荐： SaaS架构：中央库存系统架构设计

文章推荐：四、SpringBoot集成SpringSecurity之认证流程

c++ - 为什么 MSVC 不为 char 或 const char* 优化 cout 而为 int 优化？
比较代码: const char x = 'a'; std::cout > (0C310B0h) 00C3100B add esp,4 和 const i
Matlab 优化
您好，我正在使用 Matlab 优化求解器，但程序有问题。我收到此消息 fmincon 已停止，因为目标函数值小于目标函数限制的默认值，并且约束满足在约束容差的默认值范围内。我也收到以下消息。警告:矩
Eclipse 优化
处理Visual Studio optimizations的问题为我节省了大量启动和使用它的时间当我必须进行 J2EE 开发时，我很难回到 Eclipse。因此，我还想知道人们是否有任何提示或技巧可
Excel 优化
情况如下:在我的 Excel 工作表中，有一列包含 1-name 形式的条目。考虑到数字也可以是两位数，我想删除这些数字。这本身不是问题，我让它工作了，只是性能太糟糕了。现在我的程序每个单元格输入大约
jQuery 优化
这样做有什么区别吗: $(".topHorzNavLink").click(function() { var theHoverContainer = $("#hoverContainer");
jQuery $(this) 优化
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: What is the cost of '$(this)'? 我经常在一些开发人员代码中看到$(this)引用同一个
jQuery 优化
我刚刚结束了一个大型开发项目。我们的时间紧迫，因此很多优化被“推迟”。既然我们已经达到了最后期限，我们将回去尝试优化事情。我的问题是:优化 jQuery 网站时您要寻找的最重要的东西是什么。或者，我
JavaScript 优化
所以我一直在用 JavaScript 编写游戏(不是网络游戏，而是使用 JavaScript 恰好是脚本语言的游戏引擎)。不幸的是，游戏引擎的 JavaScript 引擎是 SpiderMonkey
MYSQL查询、优化
这是我在正在构建的页面中使用的 SQL 查询。它目前运行大约 8 秒并返回 12000 条记录，这是正确的，但我想知道您是否可以就如何使其更快提出可能的建议？ SELECT DISTINCT Adve
SQL 优化
如何优化这个？ SELECT e.attr_id, e.sku, a.value FROM product_attr AS e, product_attr_text AS a WHERE e.attr
python - 优化 `in`
我正在使用这样的结构来测试是否按下了所需的键: def eventFilter(self, tableView, event): if event.type() == QtCore.QEven
JavaScript 优化
我正在使用 JavaScript 从给定的球员列表中计算出羽毛球 double 比赛的所有组合。每个玩家都与其他人组队。 EG。如果我有以下球员a、b、c、d。它们的组合可以是: a & b V c
Javascript 优化
我似乎无法弄清楚如何让这个 JS 工作。 scroll function 起作用但不能隐藏。还有没有办法用更少的代码行来做到这一点？我希望 .down-arrow 在 50px 之后 fade out
CSS高级最小化(优化)
我的问题是关于用于生产的高级优化级联样式表 (CSS) 文件。多么最新和最完整(准备在实时元素中使用)的 css 优化器/最小化器，它们不仅提供删除空格和换行符，还提供高级功能，如删除过多的属性、合
HTML 优化
我读过这个: 浏览器检索在中请求的所有资源开始呈现之前的 HTML 部分.如果您将请求放在中section 而不是，那么页面呈现和下载资源可以并行发生。您应该从移动尽可能多的资源请求。
C++ 优化
我正在处理一些现有的 C++ 代码，这些代码看起来写得不好，而且调用频率很高。我想知道我是否应该花时间更改它，或者编译器是否已经在优化问题。我正在使用 Visual Studio 2008。这是一
c++ - 优化
我正在尝试使用 OpenGL 渲染 3 个四边形(1 个背景图，2 个 Sprite )。我有以下代码: void GLRenderer::onDrawObjects(long p_dt) {
Java If 优化
我确实有以下声明: isEnabled = false; if(foo(arg) && isEnabled) { .... } public boolean foo(arg) { some re
SQL 优化
(一)深入浅出理解索引结构实际上，您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引：聚集索引(clustered index，也称聚类索引、簇集索引)和非聚集索引(no
CSS 优化、提高性能的方法有哪些？
一、写在前面 css的优化方案，之前没有提及，所以接下来进行总结一下。二、具体优化方案 2.1、加载性能 1、css压缩：将写好的css进行打包，可以减少很多的体积。 2、css单一样式：在需要下边

首页

博学

6Ren·AI

商城