gpt4 book ai didi

parallel-processing - 为什么要在 CUDA 中启动 32 个线程的倍数?

转载 作者:行者123 更新时间:2023-12-04 08:16:25 25 4
gpt4 key购买 nike

我参加了 CUDA 并行编程类(class),并且我看过许多 CUDA 线程配置示例,其中通常将所需线程数四舍五入到最接近的 32 倍数。我知道线程被分组为经线,并且如果您启动 1000 个线程,GPU 无论如何都会将其四舍五入到 1024,那么为什么要明确这样做呢?

最佳答案

该建议通常在您可能会选择各种线程块大小来解决同一问题的情况下给出。

我们以向量加法为例。假设我的向量长度为​​ 100000。我可能会选择启动 100 个块,每个块 1000 个线程。在这种情况下,每个块将有 1000 个事件线程和 24 个非事件线程。我的线程资源平均利用率是 1000/1024 = 97.6%。

现在,如果我选择大小为 1024 的块怎么办?现在我只需要发射 98 个块。这些块中的前 97 个块在线程利用率方面得到了充分利用——每个线程都在做一些有用的事情。第 98 个块只有 672 个(共 1024 个)线程在做一些有用的事情。由于线程检查( if (idx < N) )或内核代码中的其他构造,其他人显式处于非事件状态。所以我在那个块中有 352 个非事件线程。但是我的整体平均利用率是 100000/100352 = 99.6%

所以在上面的场景中,最好选择“完整”的线程块,可以被 32 整除。

如果您正在对长度为 1000 的向量进行向量加法,并且您打算在单个线程块中执行此操作(两者都可能是坏主意),那么您为线程块大小选择 1000 还是 1024 都没有关系。

关于parallel-processing - 为什么要在 CUDA 中启动 32 个线程的倍数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26611241/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com