gpt4 book ai didi

cuda - GPU L1 和 L2 缓存统计信息

转载 作者:行者123 更新时间:2023-12-04 20:53:26 24 4
gpt4 key购买 nike

我编写了一些简单的基准测试来执行一系列全局内存访问。当我测量 L1 和 L2 缓存统计数据时,我发现(在具有 16 个 SM 的 GTX580 中):

 total L1 cache misses * 16 != total L2 cache queries

事实上,右侧比左侧高得多(大约五倍)。我听说一些寄存器溢出也可以放入 L2。但是我的内核只有不到 28 个寄存器,没有那么多。我想知道这种差异的根源是什么?还是我误解了这些性能计数器的含义?

谢谢

最佳答案

cuda编程指南G.4.2部分:

缓存全局内存访问。使用 –dlcm 编译标志,它们可以在编译时配置为缓存在 L1 和 L2(-Xptxas -dlcm=ca)(这是默认设置)或仅在 L2(-Xptxas -dlcm=cg)中。
一个缓存行是 128 字节,映射到设备内存中 128 字节对齐的段。缓存在 L1 和 L2 中的内存访问使用 128 字节内存事务处理,而仅缓存在 L2 中的内存访问使用 32 字节内存事务处理。因此,仅在 L2 中缓存可以减少过度获取,例如,在分散的内存访问的情况下。

关于cuda - GPU L1 和 L2 缓存统计信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7469189/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com