cuda - Kepler 中的全局内存访问和 L1 缓存-6ren

cuda - Kepler 中的全局内存访问和 L1 缓存

转载作者：行者123 更新时间：2023-12-04 12:21:32

27

4

在 Kepler 硬件上的 Visual Profiler 中分析我的内核时，我注意到分析器显示全局加载和存储缓存在 L1 中。
我很困惑，因为编程指南和开普勒调优手册指出:

L1 caching in Kepler GPUs is reserved only for local memory accesses, such as register spills and stack data. Global loads are cached in L2 only (or in the Read-Only Data Cache).

没有寄存器溢出(即使对于原始的 2 行“添加”内核，分析器也显示 L1 缓存)，我不确定这里的“堆栈数据”是什么意思。

GK110 白皮书表明，除了一种情况外，全局访问都将通过 L1 缓存:通过只读缓存 (__ldg) 加载。
这是否意味着当全局访问通过 L1 硬件时，它们实际上并没有被缓存？这是否也意味着如果我已经溢出缓存在 L1 中的寄存器数据，该数据可能会因 gmem 访问而被逐出？

更新 :我意识到我可能误读了分析器提供给我的信息，所以这里是内核代码以及分析器结果(我在 Titan 和 K40 上都尝试过，结果相同)。

template<typename T>
__global__ void addKernel(T *c, const T *a, const T *b)
{
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    c[i] = a[i] + b[i];
}

...
// Kernel call
float* x;
float* y;
float* d;
// ...
addKernel<<<1024, 1024>>>(d, x, y);
cudaError_t cudaStatus = cudaDeviceSynchronize();
assert(cudaSuccess == cudaStatus);

视觉探查器输出:

鉴于为 gmem 访问启用了 L1 缓存，L1 数字非常有意义。对于负载，我们有:

65536 * 128 == 2 * 4 * 1024 * 1024

更新 2 : 添加了 SASS 和 PTX 代码。 SASS 代码非常简单，包含从常量内存读取和从/向全局内存加载/存储(LD/ST 指令)。

Function : _Z9addKernelIfEvPT_PKS0_S3_
.headerflags    @"EF_CUDA_SM35 EF_CUDA_PTX_SM(EF_CUDA_SM35)"
                                                             /* 0x088cb0a0a08c1000 */
/*0008*/                MOV R1, c[0x0][0x44];                /* 0x64c03c00089c0006 */
/*0010*/                S2R R0, SR_CTAID.X;                  /* 0x86400000129c0002 */
/*0018*/                MOV32I R5, 0x4;                      /* 0x74000000021fc016 */
/*0020*/                S2R R3, SR_TID.X;                    /* 0x86400000109c000e */
/*0028*/                IMAD R2, R0, c[0x0][0x28], R3;       /* 0x51080c00051c000a */
/*0030*/                IMAD R6.CC, R2, R5, c[0x0][0x148];   /* 0x910c1400291c081a */
/*0038*/                IMAD.HI.X R7, R2, R5, c[0x0][0x14c]; /* 0x93181400299c081e */
                                                             /* 0x08a0a4b0809c80b0 */
/*0048*/                IMAD R8.CC, R2, R5, c[0x0][0x150];   /* 0x910c14002a1c0822 */
/*0050*/                IMAD.HI.X R9, R2, R5, c[0x0][0x154]; /* 0x931814002a9c0826 */
/*0058*/                LD.E R3, [R6];                       /* 0xc4800000001c180c */
/*0060*/                LD.E R0, [R8];                       /* 0xc4800000001c2000 */
/*0068*/                IMAD R4.CC, R2, R5, c[0x0][0x140];   /* 0x910c1400281c0812 */
/*0070*/                IMAD.HI.X R5, R2, R5, c[0x0][0x144]; /* 0x93181400289c0816 */
/*0078*/                FADD R0, R3, R0;                     /* 0xe2c00000001c0c02 */
                                                             /* 0x080000000000b810 */
/*0088*/                ST.E [R4], R0;                       /* 0xe4800000001c1000 */
/*0090*/                EXIT ;                               /* 0x18000000001c003c */
/*0098*/                BRA 0x98;                            /* 0x12007ffffc1c003c */
/*00a0*/                NOP;                                 /* 0x85800000001c3c02 */
/*00a8*/                NOP;                                 /* 0x85800000001c3c02 */
/*00b0*/                NOP;                                 /* 0x85800000001c3c02 */
/*00b8*/                NOP;                                 /* 0x85800000001c3c02 */

PTX:

.visible .entry _Z9addKernelIfEvPT_PKS0_S3_(
.param .u64 _Z9addKernelIfEvPT_PKS0_S3__param_0,
.param .u64 _Z9addKernelIfEvPT_PKS0_S3__param_1,
.param .u64 _Z9addKernelIfEvPT_PKS0_S3__param_2
)
{
.reg .s32 %r<5>;
.reg .f32 %f<4>;
.reg .s64 %rd<11>;

ld.param.u64 %rd1, [_Z9addKernelIfEvPT_PKS0_S3__param_0];
ld.param.u64 %rd2, [_Z9addKernelIfEvPT_PKS0_S3__param_1];
ld.param.u64 %rd3, [_Z9addKernelIfEvPT_PKS0_S3__param_2];
cvta.to.global.u64 %rd4, %rd1;
.loc 1 22 1
mov.u32 %r1, %ntid.x;
mov.u32 %r2, %ctaid.x;
mov.u32 %r3, %tid.x;
mad.lo.s32 %r4, %r1, %r2, %r3;
cvta.to.global.u64 %rd5, %rd2;
mul.wide.s32 %rd6, %r4, 4;
add.s64 %rd7, %rd5, %rd6;
cvta.to.global.u64 %rd8, %rd3;
add.s64 %rd9, %rd8, %rd6;
.loc 1 23 1
ld.global.f32 %f1, [%rd9];
ld.global.f32 %f2, [%rd7];
add.f32 %f3, %f2, %f1;
add.s64 %rd10, %rd4, %rd6;
.loc 1 23 1
st.global.f32 [%rd10], %f3;
.loc 1 24 2
ret;
}

最佳答案

在 Fermi 和 Kepler 架构上，所有通用、全局、本地和共享内存操作都由 L1 缓存处理。共享内存访问不需要标记查找并且不会使缓存行无效。所有本地和全局内存访问都需要进行标记查找。未缓存的全局内存存储和读取将使缓存行无效。在计算能力 3.0 和 3.5 上，除 CC 3.5 上的 LDG 外，所有全局内存读取都将不被缓存。 LDG 指令通过纹理缓存。

关于cuda - Kepler 中的全局内存访问和 L1 缓存，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21005590/

27

4

0

文章推荐： reactjs - @reach/路由器 : how to get the current route/page?

文章推荐： html5-video - 如何在html中为视频添加字幕？

c++ - l+l++ 和 l+l 一样吗？
话说，尾部的++在这里没有实际作用？最佳答案 l+l++ 未定义。您的表达式中没有序列点来分隔对 l 的访问和后增量。它可以做任何事情，包括具有与 l+l 相同的效果。编辑:问题和答案在 Why
algorithm - 展示一种算法，确定是否 L = L*，给定任何常规语言 L
我正在研究成员资格算法，我正在研究这个特定问题，该问题说明如下: 展示一种算法，给定任何常规语言 L，确定 L 是否 = L* 所以，我的第一个想法是，我们有 L*，它是 L 的 Kleene 星并确
javascript - 使用 JavaScript，如何按照这些参数/规则生成随机 11 个字符字符串？ (L,L,L,L/N,L/N,N,N,N,N,N,N)
我试图弄清楚如何使用 Javascript 生成一个随机 11 个字符串，该字符串需要特定的字母/数字序列，以及位置。 ----------------------------------------
c# - 从 Where(l => l.Side == 'A' ) 与 Where(l => l.Side.Equals ('A' ) 产生的不同 SQL
我一直在 LinqPad 中试验查询。我们有一个表 Lot，其中有一列 Side char(1)。当我编写 linq to sql 查询 Lots.Where(l => l.Side == 'A')
python - 从列表 L 创建 (L[i], L[i+1]) 元组列表
这个问题在这里已经有了答案: Iterate over all pairs of consecutive items in a list [duplicate] (7 个答案) 关闭 7 年前。假
python - 将列表 L 中的子字符串 l 与字符串 S 进行比较并根据 L 中的 l 编辑 S 的最Pythonic 方法？
列表 ['a','a #2','a(Old)'] 应变为 {'a'} 因为 '# ' 和 '(Old)' 将被删除，并且不需要重复项列表。我努力用生成器开发列表理解，并决定这样做，因为我知道它会起作用
java - 螺旋穿过二维数组(l-r，向下，r-l，向下，l-r，...)
我正在为蛇和梯子制作一 block 板，到目前为止，我已经按降序打印了板。但是，我需要以正确的方式打印电路板。编辑“螺旋下降”意味着 100...91 81...90 80...71 ...
c++ - 字符串 "Hello\0"是否等于 {'H' ,'e' ,'l' ,'l' ,'o' ,'\0' } 或 {'H' ,'e' 0x104 567910 ,'l' ,'l' ,'o'}？
字符串“Hello\n”等于 {'H','e','l','l','o','\','n','\0'} 或 {'H','e','l','l','o','\n','\0'}? 是否在字符串定义中添加转义序列
python - 为什么 python list L += x 的行为与 L = L + x 不同？
这个问题在这里已经有了答案: Different behaviour for list.__iadd__ and list.__add__ (3 个答案) 关闭 8 年前。 ls = [1,2,3]
python - 为什么 g.append(l.pop()) 返回 l 的后半部分但 l 只有前半部分
当我在编写一个程序时，我在我的代码中看到了一个奇怪的行为。这是我所看到的。 >>> l = [1,2,3,4,5,6,7,8] >>> g = [] >>> for i in l: ... g
functional-programming - Jan Willem Klop 的 "(L L L...)"Y 组合器如何工作？
我明白了what a Y Combinator is , 但我不明白这个来自 Wikipedia page 的“新颖”组合子的例子: Yk = (L L L L L L L L L L L L L
java - 异常 ParseException 与 Comparator.compare(L, L) 中的 throws 子句不兼容
Exception ParseException is not compatible with throws clause in Comparator.compare(L, L). 我在java 6上
python - 给定一个 "jumbled"列表 L，得到一个列表，其中每个元素都是 L 对应元素的索引，如果 L 已排序
期望的输出我想要一个函数返回一个列表，这样，给定一个“困惑的”列表 l，每个元素都是 l 对应元素的索引，如果 l 已排序。 (抱歉，我想不出更简单的说法。) 示例 f([3,1,2]) = [2,
c++ - 为什么 M = L + ((R - L)/2) 而不是 M=(L+R)/2 在 C++ 中避免溢出？
你好，我正在查看“假设一个排序数组在你事先不知道的某个枢轴旋转。(即 0 1 2 4 5 6 7 可能变成 4 5 6 7 0 1 2)”这个问题的 C++ 解决方案。你如何有效地在旋转数组中找到一个
python - 使用由整数 [0,...,L-1] 索引的额外列将 numpy 数组 (N,M,L) 转换为 (N*L,M+1)
让我们考虑这个简单的例子: import numpy as np a=np.arange(90) a=a.reshape(6,3,5) 我想得到一个数组 b形状 (6*5,3+1=4) 与 b[0:6
kdb - 使用变量将数据库路径传递给\l 或 .Q.l
我正在编写一个 q 脚本，它在特定路径中加载一个数据库并对其进行一些处理。 db 的位置目前在脚本中是硬编码的，但我想将 db 路径作为参数传递并让它从变量中的路径加载。目前它看起来像这样: q)
javascript - 错误设备 : (3:9741) (0, l.useLinkBuilder) 不是函数。 (在 '(0,l.useLinkBuilder)()' 中， '(0,l.useLinkBuilder)' 未定义)
为什么我收到错误 Device: (3:9741) (0,l.useLinkBuilder) is not a function。 (在 '(0,l.useLinkBuilder)()' 中，'(0,
Android:版本 "X"中的 "4.X (L Preview)"和 "Preview"中的 "L Preview"是什么意思，为什么组合 "Android 4.X (L Preview) imply"？
我有 ADT 版本 23.0.4 并安装了 Android 5.0 的 SDK 平台。我读到 Android 5.0 Lolipop 的 API 级别为 21。但是在 Eclipse 的“新建应用程
Android - 如何设置适用于 L 和 -L 设备的自定义波纹背景？
我在 Google Play Store 中实现了一个抽屉导航，我想在 DrawerLayout 中设置列 TableView 的选定项目。但是后来发现在touch模式下无法选中item，有一个i
c++ - 查找库的 "name"(-L -l 开关)
作为 C++ 的新手，我基本上有一个关于 g++ 编译器的问题，尤其是库的包含。考虑以下生成文件: CPPFLAGS= -I libraries/boost_1_43_0-bin/include/ -

首页

博学

6Ren·AI

商城

cuda - Kepler 中的全局内存访问和 L1 缓存