- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在使用opengl es 2开发一个android应用程序。我遇到的问题是,glClear()
函数处理时间太长,以至于游戏在帧延迟时显得很紧张。
使用计时探针运行程序的输出显示,虽然从Atlas设置所有顶点和图像只需不到1毫秒,glClear()
需要10到20毫秒。事实上,清除通常占用总渲染时间的95%。
我的代码基于常见教程,而Render
函数是:
private void Render(float[] m, short[] indices) {
Log.d("time", "--START RENDER--");
// get handle to vertex shader's vPosition member
int mPositionHandle = GLES20.glGetAttribLocation(riGraphicTools.sp_Image, "vPosition");
// Enable generic vertex attribute array
GLES20.glEnableVertexAttribArray(mPositionHandle);
// Prepare the triangle coordinate data
GLES20.glVertexAttribPointer(mPositionHandle, 3,
GLES20.GL_FLOAT, true,
0, vertexBuffer);
// Get handle to texture coordinates location
int mTexCoordLoc = GLES20.glGetAttribLocation(riGraphicTools.sp_Image, "a_texCoord" );
// Enable generic vertex attribute array
GLES20.glEnableVertexAttribArray ( mTexCoordLoc );
// Prepare the texturecoordinates
GLES20.glVertexAttribPointer ( mTexCoordLoc, 2, GLES20.GL_FLOAT,
false,
0, uvBuffer);
// Get handle to shape's transformation matrix
int mtrxhandle = GLES20.glGetUniformLocation(riGraphicTools.sp_Image, "uMVPMatrix");
// Apply the projection and view transformation
GLES20.glUniformMatrix4fv(mtrxhandle, 1, false, m, 0);
// Get handle to textures locations
int mSamplerLoc = GLES20.glGetUniformLocation (riGraphicTools.sp_Image, "s_texture" );
// Set the sampler texture unit to 0, where we have saved the texture.
GLES20.glUniform1i ( mSamplerLoc, 0);
long clearTime = System.nanoTime();
GLES20.glClear(GLES20.GL_COLOR_BUFFER_BIT);
Log.d("time", "Clear time is " + (System.nanoTime() - clearTime));
// Draw the triangles
GLES20.glDrawElements(GLES20.GL_TRIANGLES, indices.length,
GLES20.GL_UNSIGNED_SHORT, drawListBuffer);
// Disable vertex array
GLES20.glDisableVertexAttribArray(mPositionHandle);
GLES20.glDisableVertexAttribArray(mTexCoordLoc);
Log.d("time", "--END RENDER--");
}
/drawable-nodpi
和
glFlush()
函数。
glFinish()
,则必须自动调用它。这是因为总的渲染时间仍然和调用时一样长,并且屏幕上没有前一帧的残余。只有第一次调用
glClear()
才是耗时的。如果再次调用,则后续调用仅为1或2毫秒。
glClear()
),并使用
GLES20.GL_DEPTH_BUFFER_BIT
。晴朗的时间仍然很长。
最佳答案
你不是在衡量你认为自己是什么。测量opengl api调用的运行时间基本上是没有意义的。
不同步性
要理解的关键方面是opengl是一个将工作传递给gpu的api。最简单的心理模型(这在很大程度上与现实相对应)是,当您进行opengl api调用时,您将稍后提交给gpu的工作排队。例如,如果您进行glDraw*()
调用,请想象该调用正在生成一个工作项,该工作项将排队,稍后将提交给gpu执行。
换句话说,api是高度异步的。通过调用api请求的工作在调用返回时尚未完成。在大多数情况下,它甚至还没有提交给gpu执行。它只是排队,稍后会提交,大多数情况下不在您的控制范围内。
这种通用方法的一个结果是,进行glClear()
调用所需的时间与清除帧缓冲区所需的时间几乎没有关系。
同步
既然我们已经建立了opengl api是如何异步的,接下来要理解的概念是,一定程度的同步是必要的。
让我们看看总吞吐量受gpu限制的工作负载(要么受gpu性能限制,要么因为显示刷新限制了帧速率)。如果我们保持整个系统完全异步,并且cpu可以比gpu处理命令的速度更快地生成gpu命令,那么我们将逐渐增加排队的工作量。这是不可取的,原因如下:
在极端情况下,排队工作的数量将增长到无限大,我们将耗尽存储排队的gpu命令所需的内存。
在需要对用户输入做出响应的应用程序(如游戏)中,用户输入和呈现之间的延迟会增加。
为了避免这种情况,驱动程序使用限制机制来防止cpu走得太远。具体如何处理这个问题的细节可能相当复杂。但作为一个简单的模型,它可能有点像当cpu比gpu完成的渲染提前1-2帧时阻塞cpu。理想情况下,您总是希望某些工作排队,这样GPU就不会在图形有限的应用程序中空闲,但是您希望将排队的工作量尽可能小,以最小化内存使用和延迟。
测量的意义
在解释了所有这些背景信息后,您的测量结果应该不那么令人惊讶了。到目前为止,最有可能的情况是,您的glClear()
调用触发了同步,而您测量的时间是gpu足够赶上的时间,直到提交更多工作才有意义。
请注意,这并不意味着所有以前提交的工作都需要完成。让我们看一个有点假设,但足够实际的序列来说明可能发生的情况:
假设您进行glClear()
调用,形成渲染帧n
的开始。
此时,framen - 3
显示,gpu正忙于处理framen - 2
的渲染命令。
司机决定你真的不应该得到超过2帧。因此,它会阻塞glClear()
调用,直到gpu完成framen - 2
的渲染命令。
它还可能决定它需要等待直到在显示器上显示framen - 2
,这意味着等待下一个波束同步。
现在framen - 2
显示在屏幕上,先前包含framen - 3
的缓冲区不再使用。它现在可以用于framen
,这意味着可以提交frameglClear()
的n
命令。
请注意,虽然您的glClear()
调用在这个场景中进行了各种等待(您将其作为api调用所用时间的一部分进行测量),但这些时间都没有用于实际清除帧的帧缓冲区。您可能只是坐在某种信号量(或类似的同步机制)上,等待gpu完成先前提交的工作。
结论
考虑到你的测量毕竟没有直接的帮助,你能从中学到什么?可惜不是很多。
如果您确实观察到帧速率不符合您的目标,例如,因为您观察到口吃,或者更好的是因为您在某个时间段内测量了帧速率,那么您唯一确定的是您的渲染速度太慢。深入研究性能分析的细节对于这种格式来说是一个非常大的主题。只是让你大致了解一下你可以采取的步骤:
测量/分析您的CPU使用情况,以验证您是否真正受到GPU限制。
使用GPU供应商提供的GPU分析工具。
简化渲染,或跳过部分渲染,并查看性能如何更改。例如,如果简化几何图形,速度会更快吗?可能会受到顶点处理的限制。如果减小帧缓冲区大小,速度会更快吗?或者简化片段着色器?你可能受到碎片处理的限制。
关于android - glClear()需要太长时间 - Android OpenGL ES 2,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29551516/
在 OpenGL/ES 中,在实现渲染到纹理功能时,您必须小心,不要引起反馈循环(从正在写入的同一纹理中读取像素)。由于显而易见的原因,当您读取和写入纹理的相同像素时,行为是未定义的。但是,如果您正在
正如我们最终都知道的那样,规范是一回事,实现是另一回事。大多数错误是我们自己造成的,但有时情况并非如此。 我相信列出以下内容会很有用: GPU 驱动程序中当前已知的与最新版本的 OpenGL 和 GL
很难说出这里问的是什么。这个问题是模棱两可的、模糊的、不完整的、过于宽泛的或修辞的,无法以目前的形式得到合理的回答。为了帮助澄清这个问题以便可以重新打开它,visit the help center
我正在学习 OpenGL,非常想知道与显卡的交互如何。 我觉得了解它是如何在图形驱动程序中实现的,会让我了解 opengl 的完整内部结构(通过这个我可以知道哪些阶段/因素影响我对 opengl 性能
我正在尝试绘制到大于屏幕尺寸(即 320x480)的渲染缓冲区 (512x512)。 执行 glReadPixels 后,图像看起来是正确的,除非图像的尺寸超过屏幕尺寸——在本例中,超过 320 水平
我正在 Windows 中制作一个 3D 小行星游戏(使用 OpenGL 和 GLUT),您可以在其中穿过一堆障碍物在太空中移动并生存下来。我正在寻找一种方法来针对无聊的 bg 颜色选项设置图像背景。
如果我想要一个包含 100 个 10*10 像素 Sprite 的 Sprite 表,是否可以将它们全部排成一排来制作 1,000*10 像素纹理?还是 GPU 对不那么窄的纹理表现更好?这对性能有什
这个问题在这里已经有了答案: Rendering 2D sprites in a 3D world? (7 个答案) 关闭 6 年前。 我如何概念化让图像始终面对相机。我尝试将三角函数与 arcta
是否可以在 OpenGL 中增加缓冲区? 假设我想使用实例化渲染。每次在世界上生成一个新对象时,我都必须用实例化数据更新缓冲区。 在这种情况下,我有一个 3 个 float 的缓冲区 std::v
有人可以向我解释为什么下面的代码没有绘制任何东西,但如果我使用 GL_LINE_LOOP 它确实形成了一个闭环吗? glBegin(GL_POLYGON); for(int i = 0; i <= N
正如标题所说,OpenGL 中的渲染目标是什么?我对 OpenGL 很陌生,我看到的所有网站都让我很困惑。 它只是一个缓冲区,我在其中放置稍后将用于渲染的东西吗? 如果您能提供一个很好的引用来阅读它,
当使用 OpenGL 1.4 固定功能多纹理时,每个纹理阶段的输出在传递到下一个阶段之前是否都固定在 [0, 1]? spec说(第 153 页): If the value of TEXTURE_E
我比较了 2 个函数 openGL ES 和 openGL gvec4 texelFetchOffset(gsampler2DArray sampler, ivec3 P, int lod, ivec
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 10 年前。 Improve thi
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 想改进这个问题?将问题更新为 on-topic对于堆栈溢出。 6年前关闭。 Improve this qu
那么当你调用opengl函数时,比如glDraw或者gLBufferData,是否会导致程序线程停止等待GL完成调用呢? 如果不是,那么 GL 如何处理调用像 glDraw 这样的重要函数,然后立即更
我正在尝试实现级联阴影贴图,当我想访问我的视锥体的每个分区的相应深度纹理时,我遇到了一个错误。 更具体地说,当我想选择正确的阴影纹理时会出现我的问题,如果我尝试下面的代码,我会得到一个像 this 中
我想为OpenGL ES和OpenGL(Windows)使用相同的着色器源。为此,我想定义自定义数据类型并仅使用OpenGL ES函数。 一种方法是定义: #define highp #define
我尝试用 6 个位图映射立方体以实现天空盒效果。我的问题是一个纹理映射到立方体的每个面。我已经检查了 gDEBugger,在立方体纹理内存中我只有一个 图像(因为我尝试加载六个图像)。 代码准备纹理:
在 OpenGL 中偏移深度的最佳方法是什么?我目前每个多边形都有索引顶点属性,我将其传递给 OpenGL 中的顶点着色器。我的目标是在深度上偏移多边形,其中最高索引始终位于较低索引的前面。我目前有这
我是一名优秀的程序员,十分优秀!