gpt4 book ai didi

algorithm - 卷积核CUDA的设计

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:56:01 24 4
gpt4 key购买 nike

我正在尝试为 CUDA 设计一个卷积核代码。它将拍摄相对较小的照片(对于我的应用程序通常是 19 * 19 图像)

在我的研究中,我发现最值得注意的是这篇论文:https://www.evl.uic.edu/sjames/cs525/final.html

我理解它的概念,但我想知道,对于小图像,是否使用原始图像的逐个像素 block ,并使用该 block 的线程作为要获取的像素,然后进行 block 宽度缩小,速度足够快吗?我做了一个使全局内存访问合并的基本实现,那么,它是小图片的好设计吗?还是应该遵循“传统”方法?

最佳答案

这完全取决于您最终申请的项目。如果您打算只对一些“相对较小的图片”进行卷积,就像您提到的那样,那么一个天真的方法就足够了。事实上,如果您不处理大量数据,由于 CPU 和 GPU 之间的内存传输开销,串行方法甚至可能更快。正如您提到的,我建议首先编写访问全局内存的内核,如果您将来要处理更大的数据集,那么尝试“传统”方法并比较运行时间也是有意义的。

关于algorithm - 卷积核CUDA的设计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44972339/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com