cuda - CUDA恒定内存最佳实践-6ren

cuda - CUDA恒定内存最佳实践

转载作者：行者123 更新时间：2023-12-03 12:43:33

27

4

我在这里介绍一些代码

__constant__ int array[1024];

__global__ void kernel1(int *d_dst) {
   int tId = threadIdx.x + blockIdx.x * blockDim.x;
   d_dst[tId] = array[tId];
}

__global__ void kernel2(int *d_dst, int *d_src) {
   int tId = threadIdx.x + blockIdx.x * blockDim.x;
   d_dst[tId] = d_src[tId];
}

int main(int argc, char **argv) {
   int *d_array;
   int *d_src;
   cudaMalloc((void**)&d_array, sizeof(int) * 1024);
   cudaMalloc((void**)&d_src, sizeof(int) * 1024);

   int *test = new int[1024];
   memset(test, 0, sizeof(int) * 1024);

   for (int i = 0; i < 1024; i++) {
     test[i] = 100;
   }

   cudaMemcpyToSymbol(array, test, sizeof(int) * 1024);
   kernel1<<< 1, 1024 >>>(d_array);

   cudaMemcpy(d_src, test, sizeof(int) * 1024, cudaMemcpyHostToDevice);
   kernel2<<<1, 32 >>>(d_array, d_src),

   free(test);
   cudaFree(d_array);
   cudaFree(d_src);

   return 0;
}

它仅显示恒定内存和全局内存使用情况。在执行时，“kernel2”的执行速度(在时间方面)比“kernel1”快4倍

我从Cuda C编程指南中了解到，这是因为对常量内存的访问正在序列化。这使我想到，如果warp访问单个常量值(例如整数，浮点数， double 数等)，而访问数组根本没有好处，那么可以最好地利用常量内存。换句话说，我可以说warp必须访问一个地址，以便从不断的内存访问中获得任何有益的优化/加速 yield 。这个对吗？

我还想知道，如果我在常量内存中保留结构而不是简单类型。线程通过扭曲对结构的任何访问；还被认为是单个内存访问还是更多？我的意思是结构可能包含多个简单类型和数组。访问这些简单类型时，这些访问是否也已序列化？

最后一个问题是，如果我确实有一个带有常量值的数组，则需要通过warp中的不同线程来访问它；为了加快访问速度，应将其保存在全局内存中，而不要保存在常量内存中。那是对的吗？

任何人都可以引用一些示例代码，其中显示了有效的恒定内存使用率。

问候，

最佳答案

I can say a warp must access a single address in order to have any beneficial optimization/speedup gains from constant memory access. Is this correct?

是的，这通常是正确的，这是使用常量内存/常量缓存的主要目的。恒定高速缓存可以“一次”为每个SM服务一个数量。 precise wording如下:

The constant memory space resides in device memory and is cached in the constant cache.

A request is then split into as many separate requests as there are different memory addresses in the initial request, decreasing throughput by a factor equal to the number of separate requests.

The resulting requests are then serviced at the throughput of the constant cache in case of a cache hit, or at the throughput of device memory otherwise.

上面的文字中有一个重要的意义，就是希望在整个经纱上均匀地接触以达到最佳性能。如果warp向其中的warp中的不同线程访问不同位置的 __constant__内存发出请求，则这些请求将被序列化。因此，如果warp中的每个线程都访问相同的值:

int i = array[20];

那么您将有机会从不断的缓存/内存中受益匪浅。如果经纱中的每个线程都在访问唯一数量:

int i = array[threadIdx.x];

那么访问将被序列化，并且在性能方面恒定的数据使用量将令人失望。

I also want to know, if I keep a structure instead of a simple type in my constant memory. Any access to the structure by a thread with in a warp; is also considered as single memory access or more?

您当然可以将结构放在恒定内存中。相同的规则适用:

int i = constant_struct_ptr->array[20];

有机会受益，但是

int i = constant_struct_ptr->array[threadIdx.x];

才不是。如果跨线程访问相同的简单类型结构元素，则这对于不断使用缓存非常理想。

Last question would be, in case I do have an array with constant values, which needs to be accessed via different threads within a warp; for faster access it should be kept in global memory instead of constant memory. Is that correct?

是的，如果您知道一般而言您的访问将使恒定内存每个周期规则减少一个32位数量，那么最好将数据保留在普通的全局内存中。
有多种 cuda sample codes演示 __constant__数据的用法。这里有一些:

graphics volumeRender

imaging bilateralFilter

imaging convolutionTexture

finance MonteCarloGPU

还有其他。
编辑:如果我们在常量内存中具有这样的结构，将对评论中的一个问题做出响应:

struct Simple { int a, int b, int c} s;

我们这样访问它:

int p = s.a + s.b + s.c;
          ^     ^     ^
          |     |     |
cycle:    1     2     3

我们将充分利用常量内存/缓存。当C代码被编译时，在幕后它将生成与上图中的1,2,3相对应的机器代码访问。假设访问1首先发生。由于访问1指向相同的内存位置，而与翘曲中的哪个线程无关，因此在周期1中，所有线程都将接收 s.a中的值，并且它将利用缓存来获得最大的好处。对于访问2和3同样如此。如果另一方面，我们有:

struct Simple { int a[32], int b[32], int c[32]} s;
...
int idx = threadIdx.x + blockDim.x * blockIdx.x;
int p = s.a[idx] + s.b[idx] + s.c[idx];

这不会充分利用恒定的内存/缓存。相反，如果这是我们对 s的访问的典型方式，那么在普通的全局内存中定位 s可能会有更好的性能。

关于cuda - CUDA恒定内存最佳实践，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18020647/

27

4

0

文章推荐： crystal-reports - Crystal Reports和Visual Studio 2013预览

文章推荐： javascript - 检查 Facebook 应用程序的权限

文章推荐： php - json 资源和资源集合有什么区别？在 Laravel

理论+实践，带你了解分布式训练
本文分享自华为云社区《大模型LLM之分布式训练》，作者：码上开花_Lancer。随着语言模型参数量和所需训练数据量的急速增长，单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训
理论+实践，带你掌握动态规划法
本文分享自华为云社区《五大基础算法--动态规划法》，作者：大金（内蒙的）。一、基本概念动态规划法，和分治法极其相似。区别就是，在求解子问题时，会保存该子问题的解，后面的子问题求解时，可以直接拿来
python 调用scp命令实践
pip install scp pip install pexpect 测试代码： import os import stat import paramiko # 用于调用scp命令 def s
用于验证资源的 REST 实践
我目前正在实现“ token ”REST 服务。 token 只是一个字符串，由一些参数构建而成，然后经过哈希处理并在一定时间后过期。我想在我的 REST 服务中有一个可以验证 token 的端点，
Azure 移动服务软删除问题/实践
打开软删除后，我在客户端上添加一条记录，推送，删除添加的记录推送，然后尝试使用与初始记录相同的主键添加新记录(然后推送)，我得到一个异常(exception)。 EntityDomainManager
Azure 移动服务软删除问题/实践
打开软删除后，我在客户端上添加一条记录，推送，删除添加的记录推送，然后尝试使用与初始记录相同的主键添加新记录(然后推送)，我得到一个异常(exception)。 EntityDomainManager
Java XML 实践
我有一个应用程序，每 x 秒接收一次天气信息。我想将此数据保存到 XML 文件中。我应该为每个天气通知创建一个新的 XML 文件，还是将每个通知附加到同一个 XML 文件中？我不确定 XML 标准的
c# - 封装谓词的模式/实践
我猜我们大多数人都必须在某个时候处理这个问题，所以我想我会问这个问题。当您的 BLL 中有很多集合并且您发现自己一遍又一遍地编写相同的旧内联(匿名)谓词时，显然有必要进行封装，但实现封装的最佳方
正确的面向对象技术的 c# 实践
我有一些 c# 代码已经运行了一段时间了..我不得不说，虽然我了解 OO 原则的基础知识，但显然有不止一种方法可以给猫剥皮(尽管我讨厌那个短语!)。因此，我有一个基本抽象类作为基本数据服务类，如下所
持久化引用和删除引用对象的 SQL 实践
我设计了一个 SQL 数据库系统(使用 Postgre)，我有一个问题，即创建一个关系/引用的常见做法是什么，这种关系/引用即使在引用的对象被删除时也能持续存在。比如有一个UserORM，还有Act
Python Lambda 实践
我们的目标是搜索用户输入的字符串并计算在其中找到多少元音。不幸的是我被困在这里，有什么帮助吗？ def numVowels(s): vowels= "AEIOUaeiou" if s
c++ - 原地轮换C++实践
我有一个适用于我的“items”int 数组的旋转函数。下面的代码完成了它，除了我不必要地传输值。我正在努力实现“就地”轮换。我的意思是 ptrs 会递增或递减，而不是从数组中获取值。我需要通过这种方
ios - appDelegate 实践
我有一个 json 存储在我的应用程序文档文件夹中，我需要在我的所有 View 中使用它。我正在加载 json 并将其添加到每个 View 中的 NSMutableArray。但现在我了解到，我可以将
C++ 内存管理技术/实践
我用 C++ 开始了一个项目。这种语言的内存管理对我来说是新的。我过去常常使用 new () 创建对象，然后传递指针，虽然它可以工作，但调试起来很痛苦，人们看到代码时会用有趣的眼神看着我。我为它没有
c++ - 如何处理老年人糟糕的编码风格/实践？
已结束。这个问题是 off-topic .它目前不接受答案。想要改进这个问题？ Update the question所以它是on-topic堆栈溢出。关闭 10 年前。 Improve thi
oop - 初学者的松散耦合和 OO 实践
保持类松散耦合是编写易于理解、修改和调试的代码的一个重要方面——我明白这一点。然而，作为一个新手，几乎任何时候我都会超越我所苦苦挣扎的最简单的例子。我或多或少地了解如何将字符串、整数和简单数据类型封
php - Codeigniter MVC 实践
我发现我需要编写大量重复代码，因为我无法从其他 Controller 调用函数。例如，这里新闻提要内容在我的代码中重复，我对一个 Controller 做一些特定的事情，然后需要像这样加载我的新闻提要
f# - 在F#中实现约束数字类型的习语/实践？
假设需要一种数字数据类型，其允许值在指定范围内。更具体地说，假设要定义一个整数类型，其最小值为0，最大值为5000。这种情况在很多情况下都会出现，例如在对数据库数据类型，XSD数据类型进行建模时。在
javascript - 迭代整个数组的标准 JavaScript 实践？
假设我想循环整个数组来访问每个元素。使用 for 循环、for...in 循环或 for...of 循环是 JavaScript 开发人员的标准做法吗？例如: var myArray = ["app
Breeze 内存管理 - 模式/实践？
我有一个旧的 SL4/ria 应用程序，我希望用 Breeze 取代它。我有一个关于内存使用和缓存的问题。我的应用程序加载工作列表(一个典型的用户可以访问大约 1,000 个这些工作)。此外，还有很多

首页

博学

6Ren·AI

商城

cuda - CUDA恒定内存最佳实践