gpt4 book ai didi

java - cuda 是否支持 GPU 内核队列?

转载 作者:行者123 更新时间:2023-12-02 08:05:03 32 4
gpt4 key购买 nike

为了隐藏调用 cuda 内核的延迟,是否支持调用一系列内核而无需返回 CPU 来调用下一个内核?因此,一系列内核可以在 GPU 设备上出列。当处理较大的内核时,这似乎很重要,您可能会达到指令大小限制并希望创建更多模块化以减少总体指令大小。 (内联可能不是一个好的解决方案)

(如果它很重要,我正在使用 JCuda,如果这对实现此功能造成限制,请告诉我。)

最佳答案

您指的是什么指令大小限制?我不知道。

所有 CUDA 内核调用(<<<>>> 或 cuLaunch 等)都是异步的,这意味着控制权会立即返回到 CPU。 CUDA 驱动程序将包括内核启动在内的硬件命令推送到硬件从队列中出列的命令队列中。因此,如果您在没有其他干预 CPU 工作或 CUDA 调用的情况下调用多个后续 CUDA 内核,它们将由 GPU 异步执行,而不会“返回到 CPU”,并且在 CUDA API 将命令排队后,控制权将立即返回到 CPU。

有关更多详细信息,请参阅 CUDA 编程指南。

关于java - cuda 是否支持 GPU 内核队列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8319532/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com