gpt4 book ai didi

cuda - CUDA中Malloc函数的效率

转载 作者:行者123 更新时间:2023-12-01 01:26:28 35 4
gpt4 key购买 nike

我正在尝试将一些 CPU 代码移植到 CUDA 中。我的CUDA卡是基于Fermi架构的,所以我可以使用设备中的malloc()函数动态分配内存,不需要对原代码进行大量改动。 (在我的代码中多次调用 malloc() 函数。)我的问题是这个 malloc 函数是否足够有效,或者我们应该尽可能避免使用它。我在 CUDA 上运行我的代码并没有得到太多的加速,我怀疑这是由使用 malloc() 函数引起的。

如果您有任何建议或意见,请告诉我。我感谢您的帮助。

最佳答案

当前的设备 malloc 实现非常缓慢(已经发表了关于高效 CUDA 动态内存分配的论文,但该工作尚未出现在发布工具包 AFAIK 中)。它分配的内存来自堆,存放的是全局内存,而且速度也很慢。除非您有非常令人信服的理由这样做,否则我建议避免在内核动态内存分配中。这将对整体性能产生负面影响。它是否实际上对您的代码有很大影响是一个完全独立的问题。

关于cuda - CUDA中Malloc函数的效率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7476560/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com