memory - 为什么全局内存版本比我的 CUDA 代码中的常量内存更快？-6ren

memory - 为什么全局内存版本比我的 CUDA 代码中的常量内存更快？

转载作者：行者123 更新时间：2023-12-05 03:15:30

25

4

我正在开发一些 CUDA 程序，我想使用常量内存加快计算速度，但事实证明，使用常量内存会使我的代码慢约 30%。

我知道常量内存擅长将读取广播到整个 warp，我认为我的程序可以利用它。

这里是常量内存代码:

__constant__ float4 constPlanes[MAX_PLANES_COUNT];

__global__ void faultsKernelConstantMem(const float3* vertices, unsigned int vertsCount, int* displacements, unsigned int planesCount) {

    unsigned int blockId = __mul24(blockIdx.y, gridDim.x) + blockIdx.x;
    unsigned int vertexIndex = __mul24(blockId, blockDim.x) + threadIdx.x;

    if (vertexIndex >= vertsCount) {
        return;
    }

    float3 v = vertices[vertexIndex];
    int displacementSteps = displacements[vertexIndex];

    //__syncthreads();

    for (unsigned int planeIndex = 0; planeIndex < planesCount; ++planeIndex) {
        float4 plane = constPlanes[planeIndex];
        if (v.x * plane.x + v.y * plane.y + v.z * plane.z + plane.w > 0) {
            ++displacementSteps;
        }
        else {
            --displacementSteps;
        }
    }

    displacements[vertexIndex] = displacementSteps;
}

全局内存代码是相同的，但它多了一个参数(带有指向平面数组的指针)并使用它而不是全局数组。

我以为那些第一个全局内存读取

float3 v = vertices[vertexIndex];
int displacementSteps = displacements[vertexIndex];

可能会导致线程“去同步化”，然后它们将不会利用常量内存读取的广播，所以我尝试调用 __syncthreads();在读取常量内存之前，但它没有改变任何东西。

怎么了？提前致谢!

系统:

CUDA 驱动程序版本:5.0
CUDA 能力:2.0

参数:

顶点数:~250 万
飞机数量:1024架

结果:

恒定内存版本:46 毫秒
全局内存版本:35 毫秒

编辑:

所以我尝试了很多方法来使常量内存更快，例如:

1)注释掉两次全局内存读取，看看有没有影响，有没有。全局内存仍然更快。

2) 每个线程处理更多的顶点(从 8 个到 64 个)以利用 CM 缓存。这比每个线程一个顶点还要慢。

2b) 使用共享内存存储位移和顶点——一开始就加载它们，处理并保存所有位移。同样，比显示的 CM 示例慢。

在这次经历之后，我真的不明白 CM 读取广播是如何工作的，以及如何在我的代码中正确地“使用”。此代码可能无法使用 CM 进行优化。

编辑2:

又是一天的调整，我试过了:

3) 每个线程使用内存合并处理更多顶点(8 到 64 个)(每个线程的增量等于系统中线程的总数)——这比等于 1 的增量提供更好的结果，但仍然没有加速

4) 替换这个 if 语句

if (v.x * plane.x + v.y * plane.y + v.z * plane.z + plane.w > 0) {
    ++displacementSteps;
}
else {
    --displacementSteps;
}

用一点点数学就可以给出“不可预测”的结果，以避免使用这段代码产生分支:

float dist = v.x * plane.x + v.y * plane.y + v.z * plane.z + plane.w;
int distInt = (int)(dist * (1 << 29));  // distance is in range (0 - 2), stretch it to int range
int sign = 1 | (distInt >> (sizeof(int) * CHAR_BIT - 1));  // compute sign without using ifs
displacementSteps += sign;

不幸的是，这比使用 if 慢很多 (~30%) 所以 ifs 并不像我想象的那么邪恶。

编辑3:

我正在总结这个问题，这个问题可能无法通过使用常量内存来改善，这些是我的结果*:

Graph of global and constant memory performance

*时间报告为 15 次独立测量的中值。当常量内存不足以保存所有平面(4096 和 8192)时，多次调用内核。

最佳答案

虽然计算能力 2.0 芯片有 64k 的常量内存，但每个多处理器只有 8k 的常量内存缓存。您的代码的每个线程都需要访问所有 16k 的常量内存，因此您会因缓存未命中而失去性能。要有效地为平面数据使用常量内存，您需要重构您的实现。

关于memory - 为什么全局内存版本比我的 CUDA 代码中的常量内存更快？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15241032/

25

4

0

文章推荐： php - glob() 返回一个空数组

文章推荐： nosql - Couchbase 服务器只能使用 RAM 内存吗？

文章推荐： java - 检查数组是否对称

文章推荐： ruby-on-rails - rails 数据库迁移 - 多个迁移的版本号为 x

memory - 在什么情况下我们可以使用Non-shareable device memory，或者Shareable device memory？
在 ARM 中，内存类型指定为: 正常设备强烈有序在Device type里面，好像这个类型也可以区分不可共享的设备内存可共享设备内存不可共享和可共享设备内存有什么区别？我们如何分别使用这
memory - 在什么情况下我们可以使用Non-shareable device memory，或者Shareable device memory？
在 ARM 中，内存类型指定为: 正常设备强烈有序在Device type里面，好像这个类型也可以区分不可共享的设备内存可共享设备内存不可共享和可共享设备内存有什么区别？我们如何分别使用这
memory - spark.python.worker.memory 与 spark.executor.memory 有何关系？
This diagram很清楚不同YARN和Spark内存相关设置之间的关系，除了spark.python.worker.memory。 spark.python.worker.memory 如何适应
memory - GLSL编译错误 “memory exhausted”
我正在尝试使用复杂的if-else决策树来实现GLSL片段着色器。不幸的是，着色器编译器很早就失败，并出现“语法错误-内存耗尽”错误。 GLSL中的代码大小或决策树深度是否有任何限制？有什么建议如何克
memory - 什么是 "tagged memory"？
什么是“标记内存”，它如何帮助减小程序大小？最佳答案您可能指的是 tagged union ，或更具体地说是硬件实现，如 LISP 机器中使用的标记架构。基本上是一种存储具有类型信息的数据的方法。
memory - 戈朗 : trouble with memory
我的内存有问题。我不明白为什么当我的程序长时间运行时 Go 使用越来越多的内存(从不释放它)。第一次分配后，程序使用了将近 9 MB 的内存。然后在 12 小时后，它开始以指数方式使用更多内存，直到
memory - mac上的matlab "memory"函数？
在 Windows 机器上，MATLAB 用户可以使用 memory或 feature memstats命令。但是，这些都不能在机器上工作，失败如下: >> memory??? Error using
memory-management - Linux 内核启动 : how is memory allocation done when DTB and initramfs are initially in memory?
引导 Linux 内核时，可以在 RAM 中加载 initramfs 存档和 DTB 文件，并将这些物理地址指定给内核。例如，使用 U-Boot，您可以执行以下操作: bootz 0x80008000
memory - 既然现代计算机都使用了虚拟内存，为什么还会遇到 "out of memory"问题呢？
我正在学习虚拟内存的概念，但是这个问题让我困惑了一段时间。由于大多数现代计算机都使用虚拟内存，因此当程序正在执行时，操作系统应该在 RAM 和磁盘之间将数据分页进出。但为什么我们仍然遇到“内存不足”的
memory - RuntimeError : CUDA out of memory. 如何设置max_split_size_mb？
我在 Colab Pro+(使用高 RAM 选项)上运行神经网络时发现了这个问题。运行时错误:CUDA 内存不足。尝试分配 8.00 GiB(GPU 0；15.90 GiB 总容量；12.04 Gi
memory - 为什么从 Memory & I\O 获取数据很昂贵？
当我在任何地方阅读基于操作系统的书籍时，考虑到时间限制和开销很高，从内存和 I\O(子系统)获取数据是昂贵的，这就是为什么在某些硬件制造商中提供一些其他方式来访问它们，如ARM7 some ISAs像
memory-management - 优势数据库服务器 : in-memory queries
据我所知，ADS v.10 尝试将查询结果保留在内存中，直到它变得非常大。对于 __output 表和临时表也应该如此。当结果变大时，交换声明。问题是为查询、 worker 等设置了什么内存限制？可
memory - Docker 的 --memory 开关无法按预期工作
序言我正在写一个小演示文稿来列出使用 Docker 时的一些“陷阱”，我也遇到了自己的一个问题。在解释让 Docker 在没有内存限制的情况下运行的危险时，我发现它的行为不像我预期的那样。我使用
memory - Web服务器容量规划: more cores versus more memory
我们有一个 ASP.NET 项目(40 个左右的 Web 表单、50 个表、相当标准的 IO 内容，并尽可能减少)，很快需要部署。系统上大约有 100 个并发用户，但任何时候只有大约 20 个用户在使
memory-leaks - 如何修复Redis "memory leak"
我在 dotcloud 上使用 redis 内存存储，但尽管 key 已过期，但它的 used_memory 再也不会下降。从 redis-cli 使用 flushdb 或 flushall 不会导致
xcode - 使用 Xcode Memory Graph Debugger 时出现 "Memory Graph Debugger: no serialized memory graph received from LeakAgent"错误
我使用的是 Xcode 10.2.1 和 macOS Catalina Developer Beta 2。每当我尝试使用内存图调试器时，我都会收到此错误: Memory Graph Debugger:
memory-leaks - 如何修复 D "memory leaks"
所以我一直在寻找这个问题的解决方案有一段时间了。我编写了一个程序来从两个单独的文本文件中获取数据，对其进行解析，然后输出到另一个文本文件和一个 ARFF 文件以供 Weka 分析。我遇到的问题是我编写
memory - erlang:memory() 与 memsup:get_system_memory_data()
对不起，我对 erlang 文档中的以下描述不太清楚: erlang:memory() -> [{Type, Size}] with Type: "total" means: "The total a
memory - 在以太坊 Solidity 中， "memory"关键字的用途是什么？
在查看示例合约时，有时会在带有“内存”的方法中声明数组，有时则不会。有什么区别？最佳答案如果没有内存关键字，Solidity会尝试在存储中声明变量。首席 Solidity 开发者 chriset
MATLAB 帕福尔 : memory management: shared memory or not?
我不明白Matlab并行计算工具箱中的parfor cicle是如何与内存一起工作的:我读到它在所有worker之间共享内存(然后我认为每个worker(核心)都可以访问感兴趣的内存位置而无需制作本地

首页

博学

6Ren·AI

商城

memory - 为什么全局内存版本比我的 CUDA 代码中的常量内存更快？