gpt4 book ai didi

optimization - CUDA 中带宽的含义及其重要性

转载 作者:行者123 更新时间:2023-12-03 16:00:45 27 4
gpt4 key购买 nike

CUDA 编程指南指出

"Bandwidth is one of the most important gating factors for performance. Almost all changes to code should be made in the context of how they affect bandwidth."



它继续计算大约每秒数百 GB 的理论带宽。我不知道为什么一个人可以读取/写入全局内存的字节数反射(reflect)了内核的优化程度。

如果我有一个内核对存储在共享内存和/或寄存器中的数据进行密集计算,在开始时只进行一次读取并在结束时从全局内存中写入,那么有效带宽肯定会很小,而内核本身可能非常有效。

在这种情况下,有人可以进一步解释带宽吗?

谢谢

最佳答案

大多数非平凡的计算内核,在 CPU 和 GPU 领域,内存受限。
GPU 具有非常高的计算强度和吞吐量,但对主内存的访问非常缓慢且具有高延迟,每次读取/存储数百个周期,而许多算术运算则为四个周期。

听起来您的内核受计算限制,所以您的运气。但是,您仍然必须注意共享内存库冲突,这可能会意外地序列化部分代码。

关于optimization - CUDA 中带宽的含义及其重要性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2381331/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com