- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是 Cuda 编程的新手,我有一个将 RGB 图像转换为灰度图像的代码。读取像素的RGB值并将其转换为GreyScale的算法已经提供给我们。并行化代码使我的速度提高了大约 40-50 倍。我想进一步优化它以实现大约 100 倍的加速。为此,我想使用共享内存访问,因为它的数量级比全局内存访问快。我浏览了不同的在线资源,对共享内存访问有了基本的了解。但是在我的代码中,我无法理解如何实现共享内存,读取 RGB 值并转换为灰度的代码
for ( int y = 0; y < height; y++ ) {
for ( int x = 0; x < width; x++ ) {
float grayPix = 0.0f;
float r = static_cast< float >(inputImage[(y * width) + x]);
float g = static_cast< float >(inputImage[(width * height) + (y * width) + x]);
float b = static_cast< float >(inputImage[(2 * width * height) + (y * width) + x]);
grayPix = ((0.3f * r) + (0.59f * g) + (0.11f * b));
grayPix = (grayPix * 0.6f) + 0.5f;
darkGrayImage[(y * width) + x] = static_cast< unsigned char >(grayPix);
}
}
输入图像一个 char*,我们使用 CImg 库来处理图像
CImg< unsigned char > inputImage = CImg< unsigned char >(argv[1]);
用户在运行代码时将图像路径作为参数传递
这是我的 Cuda 实现
unsigned int y = (blockIdx.x * blockDim.x) + threadIdx.x;
unsigned int x = (blockIdx.y * blockDim.y) + threadIdx.y;
float grayPix = 0.0f;
float r = static_cast< float >(inputImage[(y * height) + x]);
float g = static_cast< float >(inputImage[(width * height) + (y * height) + x]);
float b = static_cast< float >(inputImage[(2 * width * height) + (y * height) + x]);
grayPix = ((0.3f * r) + (0.59f * g) + (0.11f * b));
grayPix = (grayPix * 0.6f) + 0.5f;
darkGrayImage[(y * height) + x] = static_cast< unsigned char >(grayPix);
Grid和 block 以及调用代码
dim3 gridSize(width/16,height/16);
dim3 blockSize(16,16);
greyScale<<< gridSize, blockSize >>>(width,height,d_in, d_out);
其中 width 和 height 是输入图像的宽度和高度。我尝试使用 (32,32) 的 block 大小,但它减慢了代码速度而不是加快速度
现在我想添加共享内存,但问题是对输入变量 InputImage 的访问是非线性的,所以我应该向共享内存添加什么值我试过类似的东西
unsigned int y = (blockIdx.x * blockDim.x) + threadIdx.x;
unsigned int x = (blockIdx.y * blockDim.y) + threadIdx.y;
extern __shared__ int s[];
s[x]=inputImage[x];
__syncthreads();
然后在实现中用 s 替换 inputImage 但这只是给出了错误的输出(全黑图像)你能帮我在这里了解我如何实现共享内存,如果它可能和有用的话,有没有办法让我以更合并的方式进行访问?
如有帮助将不胜感激
最佳答案
由于以下几个原因,这无法工作:
unsigned int x = (blockIdx.y * blockDim.y) + threadIdx.y;
extern __shared__ int s[];
s[x]=inputImage[x];
一个原因是我们不能使用全局索引 (x
) 作为共享内存索引,除非数据集足够小以适合共享内存。对于尺寸相当大的图像,您无法将整个图像放入共享内存的单个实例中。此外,您仅使用二维数据集的一维索引 (x),因此这可能没有意义。
这表明人们普遍缺乏对如何在程序中使用共享内存的理解。然而,我们并没有试图解决这个问题,而是观察到对于正确编写的 RGB-> 灰度代码,共享内存的使用不太可能提供任何好处。
当存在数据重用时,共享内存带宽优势(这就是您所说的“速度更快”时指的是什么)很有值(value)。 RGB-> 灰度代码不应要求任何数据重用。您从全局内存中加载每个 R、G、B 数量恰好一次,并将计算出的灰度数量恰好存储在全局内存中一次。将其中一些数据临时移动到共享内存不会加快任何速度。您仍然需要执行全局加载和全局存储,对于正确编写的代码,这应该是所有必要的。
但是在您的问题中,您已经提出了一个可能的改进路径:合并访问。如果您要分析发布的代码,您会发现完全未合并的访问模式。为了实现良好的合并,我们希望复合索引计算具有 threadIdx.x
变量不乘以任何值的属性:
unsigned int y = (blockIdx.x * blockDim.x) + threadIdx.x;
unsigned int x = (blockIdx.y * blockDim.y) + threadIdx.y;
float grayPix = 0.0f;
float r = static_cast< float >(inputImage[(y * height) + x]);
^
|
y depends on threadIdx.x
但在您的情况下,您的索引计算是将 threadIdx.x
乘以 height
。这将导致非合并访问。 warp 中的相邻线程将具有不同的 threadIdx.x
,我们希望 warp 中相邻线程的索引计算结果是内存中的相邻位置,以实现良好的合并访问。如果将 threadIdx.x
乘以任何值,则无法实现此目的。
这个问题的解决方案非常简单。您应该只使用几乎与您显示的非 CUDA 代码完全相同的内核代码,并为 x
和 y
定义适当的代码:
unsigned int x = (blockIdx.x * blockDim.x) + threadIdx.x;
unsigned int y = (blockIdx.y * blockDim.y) + threadIdx.y;
if ((x < width) && (y < height)){
float grayPix = 0.0f;
float r = static_cast< float >(inputImage[(y * width) + x]);
float g = static_cast< float >(inputImage[(width * height) + (y * width) + x]);
float b = static_cast< float >(inputImage[(2 * width * height) + (y * width) + x]);
grayPix = ((0.3f * r) + (0.59f * g) + (0.11f * b));
grayPix = (grayPix * 0.6f) + 0.5f;
darkGrayImage[(y * width) + x] = static_cast< unsigned char >(grayPix);
}
当然,这不是完整的代码。你没有显示完整的代码,所以如果你回答“我试过了,但它不起作用”,我不太可能帮到你很多,因为我不知道你实际运行的是什么代码.但是:
请注意,“它不起作用”的响应意味着您实际上是在寻求调试帮助,而不是概念性解释,在这种情况下,您是 supposed to提供一个MCVE .您展示的不是 MCVE。最好您的 MCVE 不应依赖于 CImg 之类的外部库,这意味着您需要努力创建一个独立测试,但要证明您遇到的问题。
此外,我建议您在使用 CUDA 代码时遇到问题时,使用 proper CUDA error checking以及使用 cuda-memcheck
运行您的代码。
(适当的 CUDA 错误检查会发现您尝试使用共享内存时出现问题,例如,由于共享内存中的越界索引。)
关于c++ - 用于将 RGB 图像转换为灰度图像的共享内存 Cuda,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33610769/
只是想知道是否有可能找出谁从 Windows 共享中读取了文件(最好使用 .NET,但 win32 native 可以)? 我想做的是创建类似 awstats 的东西对于 Windows 共享,这样我
是否可以列出 Intent.ACTION_SEND ?我的意思是我需要知道是否有人通过 action_send 在 Facebook 上分享或在 Twitter 上发推文。 最佳答案 也许你想要一个更
我正在使用 Google Apps 应用程序。实际上,我想在不使用密码的情况下访问另一个 ID。我使用了 OAuth,它运行良好。但我无法分享特定人的日历。我尝试了以下代码。 GoogleOAuthP
我怎样才能只创建模拟器...可能吗?我知道,设备需要分发证书。 最佳答案 您只需将应用程序目录从 iPhone 模拟器复制到另一个实例/操作系统版本,它就应该可以工作。 因此,如果您想分发 3.1.3
我想使用多阶段构建来避免每次构建应用程序时都下载我的 Java 项目所需的所有 Maven 依赖项。 我正在考虑在第一阶段解决 Maven 依赖项,然后在第二阶段构建应用程序,这将需要访问在前一阶段下
我正在寻找保护用户下载内容的初步想法。用户下载充满有趣资源的 zip 文件,这些资源被提取到本地文件系统中以供应用程序使用。我的目标是防止用户通过互联网将下载的资源共享给其他用户(假设他们获得了对文件
我想知道在具有移动和桌面版本的网站上共享身份验证、 session 管理等的最佳方法是什么。我们正在运行 Tomcat,并且更愿意将移动站点和桌面站点的应用程序保持在不同的节点上。 我看过类似的帖子,
我发现了这个单例的实现。我怎样才能创建指向它的指针或共享指针?` 为什么这不起作用?自动测试 = Singleton::Instance(); class Singleton { public: st
我有一个 heroku 项目,我想与其他人分享。作为the instructions describe ,我使用 virtualenv 来管理环境和依赖项。有没有办法在新机器上从 requiremen
Maven 将所有 jar 存储在本地存储库 ~/.m2/repository/ 下。用户多时占用空间大。 那么,是否可以由多个用户共享这个本地存储库,或许在不同的目录结构下? 最佳答案 简单的回答
为什么共享 worker 在重新加载页面时死了?应该是复活了我该如何解决这个问题? 重装前 重新加载后(在example.com上按F5) parent worker var port = new S
我正在开发多个小型应用程序,这些应用程序将共享通用和共享模块和 Assets 。 关于如何创建项目结构的部分在这里回答:https://stackoverflow.com/a/61254557/135
我在 RHEL 上安装了 jenkins (localhost:8080),我能够成功地构建代码 现在,我想设置主/从代理。 我的笔记本电脑将充当“Master Jenkins”,而我同事的笔记本电脑
我有这种方法可以根据我使用的 EXTRA_STREAM 共享文本文件或图片。我有这两个我可以选择 i.putExtra(Intent.EXTRA_STREAM, uri); i.putExtra(In
我正在使用 R 中的一个数据分析项目,我正在使用 R 中的敏感私有(private)数据进行一些逻辑和多级建模。我爱上了 。预订 包,我已经创建了一本关于我们的工作流程和分析管道的相当广泛的书。问题是
我正在构建的应用程序需要在 UITabBarController 框架内为多个 View (及其 subview )显示共享的自定义 UIToolbar。自定义工具栏的内容在所有 View 中都是相同
我有多个应用程序,我想共享相同的 eslint 配置: - project_root/ - app1/ - node_modules/ - eslint.rc
我有多个 Electron 应用程序。一个是主应用程序,其他几个功能应用程序。主应用程序上的按钮很少,这将导致功能应用程序打开。这里的问题是每个应用程序都有一个主进程,该进程导致要利用更多的CPU。是
我正在开发一个 Node.js 后端,它通过 websocket 与一些桌面客户端进行通信,而服务器端的通信是从 Web 前端发起的。一切正常,因为我将 SockJS Connection 实例存储在
我对托管多个网站的服务器上的多个用户帐户使用私有(private) SSH key 和无密码条目。 我为每个用户帐户使用相同的私钥。 (因为我很懒?或者那是“正确”的方式)。 我现在想授权该国不同地区
我是一名优秀的程序员,十分优秀!