c++ - CUDA 小核 2d 卷积

c++ - CUDA 小核 2d 卷积 - 怎么做

转载作者：IT老高更新时间：2023-10-28 23:01:22

30

4

我几天来一直在试验 CUDA 内核，以在 500x500 图像(但我也可以改变尺寸)和非常小的 2D 内核(拉普拉斯 2d 内核，因此它是 3x3 内核)之间执行快速 2D 卷积。 . 太小而无法利用所有 cuda 线程获得巨大优势)。

我创建了一个 CPU 经典实现(两个 for 循环，就像您想象的那样简单)，然后我开始创建 CUDA 内核。

在几次令人失望的尝试执行更快的卷积之后，我最终得到了以下代码: http://www.evl.uic.edu/sjames/cs525/final.html (参见共享内存部分)，它基本上让一个 16x16 线程 block 将他需要的所有卷积数据加载到共享内存中，然后执行卷积。

没什么，CPU 还是快了很多。我没有尝试 FFT 方法，因为 CUDA SDK 声明它对大内核大小很有效。

无论你是否阅读了我写的所有内容，我的问题是:

如何使用 CUDA 在相对较大的图像和非常小的内核 (3x3) 之间执行快速 2D 卷积？

最佳答案

你说得对，3x3 内核不适合基于 FFT 的方法。解决这个问题的最好方法是将内核推送到常量内存中(或者如果您使用的是 fermi+ 卡，这应该没什么大不了的)。

由于您知道内核大小，因此最快的方法是将输入图像/信号的 block 读取到共享内存中并执行展开的乘法和加法运算。

--

如果您愿意使用库来执行此操作ArrayFire和 OpenCV具有高度优化的卷积例程，可以为您节省大量开发时间。

我对 OpenCV 不太熟悉，但是在 ArrayFire 中您可以执行以下操作。

array kernel = array(3, 3, h_kernel, afHost); // Transfer the kernel to gpu
array image  = array(w, h, h_image , afHost); // Transfer the image  to gpu
array result = convolve2(image, kernel);       // Performs 2D convolution

编辑

使用 ArrayFire 的额外好处是它的批处理操作允许您并行执行卷积。您可以通过 here 了解卷积如何支持批处理操作。

例如，如果您有 10 个图像要使用相同的内核进行卷积，您可以执行以下操作:

array kernel = array(3, 3, h_kernel, afHost);     // Transfer the kernel to gpu
array images = array(w, h, 10, h_images, afHost); // Transfer the images to gpu
array res    = convolve2(images, kernel); // Perform all operations simultaneously

--

完全披露:我在 AccelerEyes 工作并积极致力于 ArrayFire。

关于c++ - CUDA 小核 2d 卷积 - 怎么做，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10145452/

30

4

0

文章推荐： c++ - 跟踪断言失败时如何知道调用者函数

文章推荐： java - 如何修复 'android.os.NetworkOnMainThreadException' ？

文章推荐： node.js - nodejs的任何反模式？

文章推荐： android - 可绘制 => 灰度

c - 为什么 4 线程程序在 1 核 VM 上比在 4 核 VM 上运行得更快？
我使用 4 核 i7 CPU(8 个逻辑核)，debian linux 虚拟机也是 debian linux 程序使用 gcc 编译，没有进行特殊优化(默认编译设置) 我循环了该程序 1000 次。当
parallel-processing - 大量线程消耗对 ARM(4 核 A72)与 x86(2 核 i5)的影响
我有一个实时 linux 桌面应用程序(用 C 语言编写)，我们正在移植到 ARM(4 核 Cortex v8-A72 CPU)。在架构上，它结合了高优先级显式 pthread(其中 6 个)和一对
linux - 如何创建 Solr 6 核？
我已经在 Digital Ocean ubuntu 实例上安装了 Solr 6: install_solr_service.sh solr-6.1.0.tgz 并验证 Solr 正在运行。但是，我无法
c++ - 如何识别阻碍我的程序在 32 核 CPU 上良好扩展的瓶颈？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 3 年前。 Improve this qu
parallel-processing - 英特尔刚刚推出了一款新的 48 核 CPU。向多核迁移对我们程序员意味着什么？
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 6年前关闭。 Improve this questi
image-processing - 带有卡方核的线性 svm 与 rbf 核
我有一个大约 2000 维的特征向量。都是直方图特征。我不知道在我的情况下哪个有效:将 SVM 与 RBF 核或卡方核应用？你能建议我在我的情况下有效的内核吗？最佳答案一般来说，卡方和交集内核
macos - 关闭 6 核 Intel Xeon 中的超线程
我们有一台 12 核 MacPro 来进行一些蒙特卡罗计算。其 Intel Xeon 处理器启用了超线程 (HT)，因此实际上应该有 24 个进程并行运行才能充分利用它们。然而，我们的计算在 12x1
r - 如何在 2 核 MacBook Pro 上运行多核？
所以这段代码: library(plyr) library(doMC) registerDoMC(cores=2) x=1:100 llply(x, some_function, .parallel=
performance - 在 32 核/10Gbit 主机上调优 Netty
Netty Server 流到 Netty 客户端(点对点，1 对 1): 好的案例:Server和Client都是12 cores , 1Gbit NIC => 以每秒 300K 200 字节消息
c# - 4 核 PC 上的 c# 程序中的线程激活顺序
我对以下 C# 代码的线程激活顺序感到困惑。它创建了 10 个线程，随机启动它们，每个线程模拟执行一个耗时的工作 10 次，如果你检查调试输出，线程似乎不是随机选择的，请看下面的输出示例，注意线程 #
machine-learning - 在扩展特征空间中，核 SVM 与线性 SVM 相比有哪些缺点？
这是我考试时提出的问题。我给出了以下答案，我的得分是0分。教授甚至不同意给予任何部分的认可，也没有告诉我我的答案有什么问题。谁能帮我找出我的答案有什么问题吗？这是我在考试中给出的答案。缺点是:1)
c++ - 在 24 核 CPU 中增加线程数超过 4 会导致性能下降
我有一个 Intel Xeon E5-2620，它有 24 个 CPU。我写了一个应用程序，它创建 24 个线程来使用 openssl 解密 AES。当我在 100 万数据解密时将线程数从 1 增加到
ios - quartz 核 : Changing whole layer pixels color
我正在开发一个在图层上绘画的应用程序。这是一个示例代码，展示了我的绘画方式。 UIImageView * currentLayer = // getting the right layer... UI
python - 如何将线程固定到具有预定内存池对象的内核？ (80 核 Nehalem 架构 2Tb 内存)
在带有 2Tb DRAM 的 80 核 (160HT) nehalem 架构上运行一些测试后，我遇到了一个小的 HPC 问题: 当每个线程开始请求有关“错误”套接字上的对象的信息时，具有 2 个以上套
asp.net-mvc - Azure 网站，中型实例，2 核，多少个应用程序池？
由于潜在的性能问题，我刚刚将测试实例从小型“标准”(1 核，1.75GB RAM)实例升级到中型“标准”实例(2 核，3.5GB RAM)，这似乎是快速击中。我们确实存在应用程序池回收和必须重新预热某
java - 是否有可能在 4 核 Android 设备中高效地实现并行数学计算？ (这个与接口(interface)无关)
我知道，为了在 Android 中保持响应式界面，繁重的工作必须在独立线程中完成。我很清楚如何实现这一点(通过使用 AsynTask...等)，这不是问题的重点，只是让每个人都知道。但是我已经在一个
java - 为什么我的 java 长时间运行的线程(5k+ 线程)没有利用所有机器内核(12 核)？
我写了一个简单的多线程 Java 应用程序，主要方法只创建 5k 个线程，每个线程将循环处理一个包含 5M 条记录的列表。我的机器规范: CPU 内核:12 个内核内存:13Gb RAM 操作系统
multithreading - 如何在 4 核 CPU : 4 threads or 50 threads? 上更快地进行相同的计算
让我们假设我们有固定数量的计算工作，没有阻塞、 sleep 、I/O 等待。工作可以很好地并行化——它由 100M 小而独立的计算任务组成。什么是 4 核 CPU 的速度更快 - 运行 4 个线程或
machine-learning - 使用 RBF 核 SVM 时，c 或 gamma 的高值是否会出现问题？
我正在使用 WEKA/LibSVM 来训练术语提取系统的分类器。我的数据不是线性可分的，因此我使用 RBF 内核而不是线性内核。我关注了guide from Hsu et al.并迭代 c 和 ga
Python multiprocessing.cpu_count() 在 4 核 Nvidia Jetson TK1 上返回 '1'
谁能告诉我为什么在具有四个 ARMv7 处理器的 Jetson TK1 上调用 Python 的 multiprocessing.cpu_count() 函数会返回 1？ >>> import mul

首页

博学

6Ren·AI

商城

c++ - CUDA 小核 2d 卷积 - 怎么做