库达 : Is shared memory always helpful?-6ren

库达 : Is shared memory always helpful?

转载作者：太空宇宙更新时间：2023-11-03 23:50:57

25

4

看programming guide的时候，感觉共享内存总会提高性能，但好像不是。我有两个功能:

const int Ntimes=1;

__global__ void testgl(float *A, float *C, int numElements){

    int ti = threadIdx.x;
    int b0 = blockDim.x*blockIdx.x;

    if (b0+ti < numElements){
        for(int i=0;i<Ntimes;i++){
            A[b0+ti]=A[b0+ti]*A[b0+ti]*10-2*A[b0+ti]+1;
        }
        C[b0+ti] = A[b0+ti]*A[b0+ti];
    }
}


__global__ void testsh(float *A, float *C, int numElements){

    int ti = threadIdx.x;
    int b0 = blockDim.x*blockIdx.x;

    __shared__ float a[1024];

    if (b0+ti < numElements){
        a[ti]=A[b0+ti];
    }

    __syncthreads();

    if (b0+ti < numElements){
        for(int i=0;i<Ntimes;i++){
            a[ti]=a[ti]*a[ti]*10-2*a[ti]+1;
        }
        C[b0+ti] = a[ti]*a[ti];
    }
}

int main(void){

    int numElements = 500000;
    size_t size = numElements * sizeof(float);

    // Allocate the host input
    float *h_A = (float *)malloc(size);
    float *h_B = (float *)malloc(size);

    // Allocate the host output
    float *h_C = (float *)malloc(size);
    float *h_D = (float *)malloc(size);


    // Initialize the host input
    for (int i = 0; i < numElements; i++){
        h_A[i] = rand()/(float)RAND_MAX;
        h_B[i] = h_A[i];
    }

    // Allocate the device input
    float *d_A = NULL; cudaMalloc((void **)&d_A, size);
    float *d_B = NULL; cudaMalloc((void **)&d_B, size);
    float *d_C = NULL; cudaMalloc((void **)&d_C, size);
    float *d_D = NULL; cudaMalloc((void **)&d_D, size);


    //Copy to Device
    cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice);  
    cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice);


    // Launch the Vector Add CUDA Kernel
    int threadsPerBlock = 1024;
    int blocksPerGrid =(numElements + threadsPerBlock - 1) / threadsPerBlock;

    testgl<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_C, numElements);

    testsh<<<blocksPerGrid, threadsPerBlock>>>(d_B, d_D, numElements);

    // Copy the device resultto the host 
    cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);
    cudaMemcpy(h_D, d_D, size, cudaMemcpyDeviceToHost);


    // Free device global memory
    cudaFree(d_A);
    cudaFree(d_B);
    cudaFree(d_C);
    cudaFree(d_D);

    // Free host memory
    free(h_A);
    free(h_B);
    free(h_C);
    free(h_D);

    // Reset the device and exit
    cudaDeviceReset();

    return 0;
}

如果Ntimes设置为1，testgl耗时49us，testsh耗时97us。如果Ntimes设置为100，testgl耗时9.7ms，testsh耗时8.9ms。

不知道为什么要长100多倍。

所以看起来共享内存只有在我们想在设备上做很多事情时才有用，对吗？

这里使用的显卡是GTX680。

提前致谢。

最佳答案

共享内存总能提高性能

那不是真的。这取决于算法。如果您在内核中有一个完美合并的内存访问，并且您只访问一次全局内存，它可能无济于事。但是如果你正在实现一个矩阵乘法，你需要保留部分和，那么它将很有用。

如果您在内核中多次访问同一内存位置，这也会有所帮助，在这种情况下它会有所帮助，因为共享内存延迟比全局内存少 100 倍，因为它是片上内存。

当您分析内核带宽受限时，这是一个思考是否有使用共享内存和提高性能的好地方。检查占用计算器以检查共享内存的使用是否会影响占用也是更好的策略。

只有当我们想在设备上做很多事情时，共享内存才有用 ?

部分是的。当我们想在设备中做很多事情时，共享内存会有所帮助。

在上述内核的情况下，当您在内核中多次访问全局内存时，它应该有所帮助。如果能提供完整的复现器来分析代码会很有帮助。了解您正在运行的卡的详细信息也将很有帮助。

关于库达 : Is shared memory always helpful?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19998335/

25

4

0

文章推荐： python 自动(或动态)导入包中的类

文章推荐： node.js - Firebase 堆栈 "Error: too many index entries for entity"

文章推荐： python - 从一个 View 中调用 flatpage

share - 如何加速 Alfresco Share 的开发
我正在对 Share 开发和执行一些自定义。我的 IDE 是 Eclipse Juno，工作区由以下元素组成: 露天网络项目扩展 Java 项目分享网站项目 alfresco 和 share we
React-Native:电子邮件的主题行与使用 Share.share 的消息内容相同
这是我一直面临的一个非常奇怪的问题。我正在使用 Share.share，它将消息、主题 (ios) 和标题(对于 gmail)作为参数。在android中它工作正常。即主题行是“我是标题”，而消息正文
shared - D中的"Shared"和"__gshared"关键字
当在static上下文中未使用而不是时(也就是说，当static关键字不存在并且您不在全局范围内时)，shared和__gshared关键字有什么作用？例子: struct Temp {
share - 如何从 Alfresco Share webscript 检索主机名
我想知道如何从 Surf 中的 Root 对象知道当前主机名。我正在编写一个服务于 JNLP 的网络脚本，所以我没有页面上下文，并且 ${url.context} 只返回 /share。我正在寻找
share - 如何从 Alfresco Share webscript 检索主机名
我想知道如何从 Surf 中的 Root 对象知道当前主机名。我正在编写一个服务于 JNLP 的网络脚本，所以我没有页面上下文，并且 ${url.context} 只返回 /share。我正在寻找
share - 如何在 Share 中创建免身份验证的 aikau webscript
我需要在 Alfresco Share 上下文中创建一个无需身份验证即可访问的页面。使用页面框架时，它看起来非常简单，因为您可以添加 none到页面定义。当使用 aikau 时，页面定义消失了，我只
shared-libraries - 我可以使用Groovy以外的其他语言在Jenkins Pipeline中创建 'shared library'吗？
我有执行REST命令并处理结果的python脚本。我希望该脚本可被不同的Jenkins Pipelines使用，我通过Jenkins官方文档发现的一种方式是使用“共享库”，而这些示例(以及我在网上找到
c++ - OpenMP:为 'shared' 预先确定 'shared' ?
查看此函数(矩阵 vector 积): std::vector times(std::vector > const& A, std::vector const& b, int m, int n) {
share - Alfresco Share 是否为 Inter Dashlet 通信提供任何机制？
我正在尝试弄清楚如何与 Alfresco Share 执行一些 dashlet 间通信。这是一个简单的用例: 我们确实有 2 个 dashlet，我们称它们为 A 和 B。我希望能够在 A 中填写字
share - 雪花 UDF 调用 "Show Shares"函数
是否可以在 Snowflake 的 FUNCTION 或 PROCEDURE 中发出“Show Shares”函数调用？由于信息架构中没有元数据对象来查询有关共享的信息，因此我们正在寻找一种方法来创建
architecture - 为什么选择 "share nothing"而不是 "share everything"？
我对“无共享”分布式系统的理解是集群中的每个节点都有自己的磁盘可以持久化。如果是这种情况，我不确定为什么拥有这样的架构会有好处，因为您不仅需要在应用程序级别进行复制/负载平衡/集群，而且还需要在磁盘上
architecture - 为什么选择 "share nothing"而不是 "share everything"？
我对“无共享”分布式系统的理解是集群中的每个节点都有自己的磁盘可以持久化。如果是这种情况，我不确定为什么拥有这样的架构会有好处，因为您不仅需要在应用程序级别进行复制/负载平衡/集群，而且还需要在磁盘上
share - 在 Alfresco Share 中自定义 Doclib 过滤器
在 Alfresco 4.0 中，我想扩展 Share Doclib Filter webscript 以添加我自己的自定义过滤器。有没有一种简单的方法可以在 share-config-custom
python - RegEx:如何匹配 Prefix + Shared OR Shared + Postfix？
假设我要匹配: PREFIXsomething 或: somethingPOSTFIX 但肯定不是: PREFIXsomethingPOSTFIX 其中 something 是某种共享模式，而 PRE
javascript - 谷歌云端硬盘 SDK - JavaScript : How to list SHARED FILES (not shared with me)
我正在寻找一种使用 JavaScript 在 google drive sdk 上查找用户共享文件列表的方法。重要提示:我不是在寻找“与我共享”的文件列表。我目前所拥有的列出了“与我共享”的文件，
swift 用户默认 :sharing data via share group doesn't work
最近刚开始使用 swifting，在使用应用程序组在 iOS 设备之间共享数据时遇到了问题。基本上我已经按照以下步骤设置了项目: [iPhone] 为 iPhone 目标启用应用程序组初始化数据如
linux - GCC 选项的 -shared 和 -Wl,-shared 的区别
我知道 -Wl,-shared 是 ld 的一个选项。我见过有人这样编译， $ gcc -shared -Wl,-soname,libtest.so -o libtest.so *.o 还有这样的人
go - 解释: Don't communicate by sharing memory; share memory by communicating
我想知道对这句名言最接地气的解释是什么: Don't communicate by sharing memory; share memory by communicating. (R. Pike) 在
Web Share API sharing files Permission Denied(Web共享API共享文件权限被拒绝)
我不确定我在这里做错了什么，我认为应该有更多的文档或关于这个Web Share API的更好的错误描述。。我正在尝试共享以下文件。使用。我已经确保该类型是允许的类型，但我一直收到DOMExceptio
rx-swift - "Share Side effect"和 "Share Resources"之间的区别
我正在研究 RxSwift 和 RxCocoa。官方文档中有这些解释。分享副作用分享资源它们是一样的吗？如果有区别，那有什么区别？光看官方文档的解释，我看不懂。预先感谢您的回答。最佳答案文

首页

博学

6Ren·AI

商城

库达 : Is shared memory always helpful?