gpt4 book ai didi

audio - 优化显存和系统内存之间的传输

转载 作者:行者123 更新时间:2023-12-01 22:11:00 24 4
gpt4 key购买 nike

不久前,我正在尝试使用 GLSL 在 GPU 上创建一个重型声音合成器。该合成器能够同时产生超过 256 个声音的非常复杂的声音。在CPU上,我不敢梦想得到这样的性能。

(简化解释)为了生成声音,我有一个 NxV 大小的浮点纹理。 N = 样本数,V = 语音数。合成着色器为每个纹素生成值。

然后,第二个着色器会将所有声音混合在 16 位有符号整数 1D 纹理(或声卡所需的任何格式)中。使用像素缓冲区将最终纹理尽快复制到系统内存,然后将其发送到声卡。

对于声音,我使用超低延迟的 Windows Core Audio。

我编写了一个 MIDI 接口(interface),能够在连接到 PC 的 MIDI 键盘上播放,并且在使用 Intel GPU 时完美运行,延迟仅为 3ms(N = 132 个样本,这比所需的要好得多) 15-20ms N=600-900 个样本)。但当使用 NVidia GPU 来支持更繁重的计算时,延迟会更大(>35ms N=>1500 个样本)。

据我所知,原因是当使用Intel GPU时,渲染是直接在系统内存上完成的,并且复制纹理的速度非常快,但是当使用NVidia GPU时,渲染是在视频内存中完成并从视频复制的内存到系统内存是一个瓶颈,尽管它只需要传输大约 4KB 的音频数据(这甚至没有接近硬件应有的 6GB/s 能力)。

有没有办法改善这个问题?例如,是否可以让 NVidia GPU 直接渲染到系统内存(以可接受的速度),或者他们在 OpenCL 中谈论的那些著名的共享内存是什么? OpenCL 会改善这一点吗? (我没有 OpenCL 经验)

最佳答案

有时 GPU 写入主内存比 CPU 读取 VRAM 更快。这样做的方法是使用 PBO,看看 here 。您必须提示将 PBO 存储在主内存中。这可能有帮助,也可能没有帮助,具体取决于硬件架构。

OpenCL 本质上并不是更快。如果您在 OpenGL 中有一个干净的实现,那么您很可能不会通过 OpenCL 实现获得速度提升。但有些事情在 OpenCL 中可以做到,但在 OpenGL 中却无法做到。

如果您仍然发现带宽是瓶颈,还有其他一些建议:

  1. 您是否尽可能避免阻塞?当您在线程中使用 GL 调用读取纹理时,您是否也在另一个线程中处理最后读取的纹理,类似这样的事情。请注意,对 glGetTexImage 的调用是异步的,并且不会阻塞。只有在调用 glMapBuffer 之前,您才会阻塞并知道传输已完成。

  2. 您是否转移了尽可能少的转移、最少的转移次数。

  3. 有些压缩纹理格式是有损的,但也许适合您的需求?

关于audio - 优化显存和系统内存之间的传输,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29260126/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com