linux - Linux 与 macOS 中的巨大 OpenGL 性能差异，相同的硬件-6ren

linux - Linux 与 macOS 中的巨大 OpenGL 性能差异，相同的硬件

转载作者：太空狗更新时间：2023-10-29 11:21:16

26

4

关闭。这个问题需要debugging details .它目前不接受答案。

想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。

4年前关闭。

Improve this question

我正在构建一个 OpenGL 应用程序。它对 OpenGL 所做的唯一不方便的事情是它使用了一些(5 个或更多)相当大(2000x2000 和更大)的纹理。其余的是非常默认的现代 OpenGL 3.3 东西(FBO、VBO、IBO、VOA、着色器等)。因为这些纹理非常大，并且需要超过 8 位的位深度，所以我使用 GL_R11F_G11F_B10F内部像素格式以减少内存(但是，将其更改为简单的内容无济于事(见底部))。

现在，事情是这样的:完全相同的代码，在 Windows、Linux 和 macOS 上运行(我使用 SDL 作为抽象层)。 Linux 和 macOS 在相同硬件(我的 2011 年末 MacBook Pro 13"、Intel HD Graphics 3000 @1280x800)、相同编译器(clang -O3 -mavx)上的性能差异是巨大的。在 macOS 上，我的帧时间大约是 30 毫秒到 80 毫秒。然而，在 Linux 上，它是惊人的 1 毫秒到 4 毫秒。同样，同一台笔记本电脑，只是在不同的操作系统中重新启动。将应用程序窗口缩小到大约 600x400，在 macOS 上将帧时间降低到 13 毫秒。因此，似乎像素着色器/光栅化是瓶颈(我的着色器确实非常复杂)。

我必须说我过去在 macOS 上有更好的帧时间(大约 13 毫秒到 20 毫秒)。所以，我发现这一点后真的很怀疑，苹果可能通过系统更新故意“降级”Intel HD Graphics 3000的图形驱动程序，以插入客户购买新产品。我必须说，我一直在考虑购买一台新的笔记本电脑，但自从我发现这一点后，突然产生了厌恶感。

现在的问题是:您认为这里可能会发生什么？ buggy 司机？苹果故意让事情变慢？驱动程序中包含未优化的 GLSL 编译器？或者也许我在应用程序中的 OpenGL 代码中有一些不好的做法？驱动程序对非 8 位纹理格式的支持不佳是否常见？

我只是讨厌该应用程序在 Linux 中使用起来非常棒，而在 macOS 中却令人不快。硬件能够做得更好。

@BDL 要求的一些测试:

在每个维度上将纹理的大小减少 4 倍(因此内存减少 16 倍，留下大约 500x500 的纹理)，不会影响帧时间。

使用 GL_RGB8 或 GL_SRGB8 作为内部格式不会影响帧时间。

降低大量着色器复杂性确实有帮助:在片段着色器中删除大量计算时，我可以将其平均降低到 8 毫秒。

明天我将尝试使用 glsl 着色器优化器: https://github.com/aras-p/glsl-optimizer
希望这会有所帮助。

最佳答案

您究竟使用什么方法来测量帧渲染时间？在我关于各种 OpenGL 实现的计时行为的实验中，Mesa/Intel HD 驱动程序的计时行为最难解释。

用于 MacOS X 的英特尔高清显卡驱动程序是一个完全不同的代码库(零源代码重叠!)，由完全不同的开发团队(主要是 Apple 人员 AFAIK)编写。

请记住，OpenGL 采用异步执行模型，并且没有关于缓冲区交换调用的确切时间的硬性规范。在 Linux 上，AMD 和 NVidia OpenGL 几乎都有 …SwapBuffers阻塞直到垂直同步(如果垂直同步已启用)。但是我发现 Mesa/Intel 实现可以处理 …SwapBuffers就像另一个排队的命令一样，真正的块只会在命令队列被填满并且调用最终只能在缓冲区交换后才能执行(如清除后台缓冲区)时发生。

长话短说，我找到了唯一可靠的方法，通过放置 glClear 来实际测量帧渲染直到呈现¹ 次立即调用 …SwapBuffers (即清除将在下一次迭代中出现的下一帧)并测量从渲染开始到异常放置之后的时间 glClear称呼。

无论如何，通过查询对象更好地测量纯呈现时间(不包括表示部分)。

关于linux - Linux 与 macOS 中的巨大 OpenGL 性能差异，相同的硬件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43770255/

26

4

0

文章推荐： linux - 找不到在 Linux 上构建 maven 项目的 mvn 命令

文章推荐： iphone - 具有硬件集成的 iOS 应用程序

文章推荐： iphone - UIWebView 方法 loadHTMLString : and loadRequest 之间的区别

文章推荐： c# - 在 Rider 中添加用于测试的资源文件

android - 无法在共享首选项中存储字符串(巨大)
我通过在共享首选项中使用 GSON 将其转换为 json 来存储我的复杂对象。但是在检索它时，无法获得预期的字符串。代码这里 holderListCustomizationMap 是对象的复杂映射
rust - 如何遍历(巨大)压缩文件的行？
因此，我正在尝试对大于可用RAM的gz压缩文件执行某种面向行的操作，因此排除了将其首先读取为字符串的情况。问题是，如何在rust(缺少gunzip file.gz|./my-rust-program)
javascript - 巨大 float 的国际格式
我试图更好地理解为什么具有潜在大精度的大数字处理不一致，特别是在 JavaScript 及其本地化工具(例如 ECMA-402/Intl)中。我假设这与 float 的使用有关，但我想了解限制在哪里和
mysql - CSV(巨大)到基于网络的数据库
我们有一个 5GB 的 csv 文件，这是我们业务的主列表。有多个类别，每个类别包含数千条记录。我们的目标是将每个类别导出为其自己的 csv 文件。我们如何运行查询并导出数据？运行 OSX。有没
R:巨大(> 20GB)文件的xmlEventParse期间的内存管理
基于上一个问题 ( see here )，我试图通过 xmlEventParse 读取许多大型 xml 文件，同时保存节点变化数据。使用此示例 xml:https://www.nlm.nih.gov/
巨大 CSV 文件的 Java 内存问题
我正在开发一个系统，它加载一个巨大的 CSV 文件(超过 100 万行)并保存到数据库中。每行也有超过一千个字段。 CSV 文件被视为一个批处理，每一行都被视为其子对象。在添加对象的过程中，每个对象都
javascript - Browserify 产生一个*巨大*的输出文件
借助node-google模块我编写了一个简单的 Node 模块来为我的网络应用程序启用“文本网络搜索”功能，并在我的一个 View 中显示结果。由于在来自同一 IP 的少量查询后 Google
python - 巨大 numpy (HDF5) 阵列的统计数据
我有相当大的 4D 阵列 [20x20x40x15000]，我使用 h5py 将其作为 HDF5 文件保存到磁盘.现在的问题是我想计算整个数组的平均值，即使用: numpy.average(HDF5_
巨大 CString 的 C++ 串联
我在遗留代码库中连接巨大的 CString 时遇到问题。 CStrings 可以包含 base64 编码的文件，因此可能很大。在某些时候，这些 CString 会像这样连接起来: result +=
python - 使用 django 从远程提供可下载文件(巨大)
我正在尝试让我的服务器提供来自另一台服务器的巨大文件。但是，为了保护我的凭据免受该远程服务器的攻击，我不能简单地将请求者重定向到文件 url；另一方面，虽然使用 StreamingHttpRespon
mongodb - 为什么我的 mongo local db oplog 巨大
感谢对此的任何见解，我有 2 个问题: 1) 弄清楚为什么我的本地数据库 oplog 庞大且不断增长 2) 安全删除(或重置)我的 local.oplog 以释放 18 GB 的浪费空间场景:我一直
javascript - 在 Node JS 中获取、操作和编写(响应)巨大 JSON 的最佳方式？
我的预期任务:获取大量数据(1 GB 及更多大小)json 字符串，操作(进行一些格式化、解析 json、重组 json 数据)并写入新格式化的 json 字符串作为响应。处理这种情况的更好方法是什么
Angular 2 和 Angular Cli tree shaking 生产构建，vendor.js 巨大
我做了一个小的 Angular 4 应用程序，但我不知道如何应用 tree shaking 和 aot 编译。我运行的命令如下: ng build --prod --aot 但我得到的结果仍然很大，供

首页

博学

6Ren·AI

商城

linux - Linux 与 macOS 中的巨大 OpenGL 性能差异，相同的硬件