cuda - : DRAM Throughput vs Global Memory Throughput有什么区别-6ren

cuda - : DRAM Throughput vs Global Memory Throughput有什么区别

转载作者：行者123 更新时间：2023-12-04 15:46:55

24

4

实际吞吐量 CUDA 分析器使用四个指标报告内核实现的结果:

全局内存负载吞吐量

全局内存存储吞吐量

DRAM 读取吞吐量

DRAM 写入吞吐量

CUDA C 最佳实践指南将全局内存加载/存储吞吐量描述为实际吞吐量，并没有具体说明 DRAM 读/写吞吐量。

CUPTI 用户指南定义:

全局内存负载吞吐量为 ((128*global_load_hit) + (l2_subp0_read_requests + l2_subp1_read_requests) * 32 - (l1_cached_local_ld_misses * 128))/(gputime)

全局内存存储吞吐量为 (l2_subp0_write_requests + l2_subp1_write_requests) * 32 - (l1_cached_local_ld_misses * 128))/(gputime)

DRAM 读取吞吐量为 (fb_subp0_read + fb_subp1_read) * 32/gputime

DRAM 写入吞吐量为 (fb_subp0_write + fb_subp1_write) * 32/gputime

我了解 DRAM 读/写吞吐量，因为 fb_subp* 计数器报告了一些 DRAM 访问(32 字节访问增加 1)并为所有 SM 收集。所以我很清楚，吞吐量是根据 gputime 和访问的字节数计算的。

我不明白全局内存吞吐量定义。 global_load_hit 和计数器没有定义。我不明白为什么在这两种情况下都减去了 l1_cached_local_ld_misses。

在这种情况下，DRAM 与全局内存有什么不同吗？

如果我想知道内核的实际吞吐量是多少，我应该使用 DRAM 还是全局内存吞吐量指标？

最佳答案

全局内存吞吐量是指令从全局地址空间请求的数据量。 global_load_hits 是来自全局请求的 L1 缓存命中数(缓存行大小为 128 字节)。公式的其余部分通过计算对 L2 的所有访问来估算未命中 L1 的访问的全局吞吐量。

全局内存是一个虚拟内存空间，可以映射到设备内存和系统内存。

DRAM 是物理设备内存(例如卡上的 GDDR5)。在 L2 未命中时访问 DRAM。以下虚拟地址空间可以在 DRAM/设备内存中(全局、本地、常量、指令和纹理)。请注意，这些内存空间中有许多是虚拟地址空间，最终数据可以驻留在 DRAM 或系统内存中。

关于cuda - : DRAM Throughput vs Global Memory Throughput有什么区别，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10901441/

24

4

0

文章推荐： titanium - 在没有 jquery 的情况下实现 signalR

文章推荐： SQL而不是插入触发器-如果不存在则插入数据

文章推荐： asp.net - 如何将现有的Azure Web角色转换为新型Azure网站？

文章推荐： php - 如何为 PDO 制作单例包装器？

performance - DRAM 及其对现实世界性能的影响
在了解了计算机程序的运行方式后，我对 CPU 和 RAM 有了一些想法。在观看了一些 youtube 视频(linus 技术提示和其他)之后，它们似乎都表明增加 RAM 速度(频率)并不能真正提高普通
performance-testing - DRAM 访问的性能计数器
我想检索 DRAM 访问次数在我的应用程序中。准确地说，我需要区分在数据和代码访问之间。处理器是 Intel(R) Core(TM) i7-4720HQ CPU @ 2.60GHz (Haswel
recursion - DRAM 中的堆栈是什么(递归期间会发生什么)？
我只是想更好地理解地址空间中的堆栈是什么(即你有代码/文本、堆、数据和堆栈) 基本上我的理解是堆栈包含局部变量，但是数据包含的内容和堆栈包含的内容有什么区别？数据变量不也是如此吗？如果程序对函数 a
c - 如何获取 DRAM 地址而不是虚拟地址
我知道如果我尝试打印数组元素的地址，它将是来自虚拟内存的地址，而不是来自真实内存(物理内存)，即 DRAM。 printf ("Address of A[5] and A[6] are %u and
memory-management - x86 的物理内存地址到 DRAM 映射信息
我想知道是否有任何关于如何判断两个给定的物理内存地址是否在同一个内存库中的信息。我正在研究 x86 多核架构，需要在任务级别破解内存访问性能。提前致谢 /彭最佳答案编辑:事实证明它比我意识到的更
cpu-architecture - 典型的 DRAM 行缓冲区大小是多少？如何找到它？
如何以编程方式或使用 *nix 系统中现有的工具来查找 DRAM 行缓冲区大小？最佳答案作为示例，使用金士顿 DDR4，我执行了以下命令(您可能需要安装一些软件包): sudo modprob
memory - 当向 DRAM 发出读取请求时，为什么我们需要读取标签和数据，而不是仅读取数据？
我正在阅读 David Patterson 和 John Hennessy 的计算机体系结构书籍。在第2章中，提到如果我们将标签存储在DRAM中，我们可能需要在两个周期内发出两个单独的请求来读取标签和
cuda - L2 事务如何映射到 GPU 中的 DRAM？
在 GPU 中，到 L2 缓存的事务大小可以是 32B、64B 或 128B(读和写)。此类交易的总数可以使用 gst_transactions 和 gld_transactions 等 nvprof
c - 是否可以使用 C 语言访问 DRAM 位单元？
如果这不是问这个问题的地方，我深表歉意。我想知道 C 编程语言是否允许用户访问 DRAM 位单元，我似乎无法在网上找到任何专门回答我的问题的资源，所以我更倾向于认为这是不可能的。谢谢最佳答案 C 没
cuda - : DRAM Throughput vs Global Memory Throughput有什么区别
实际吞吐量 CUDA 分析器使用四个指标报告内核实现的结果: 全局内存负载吞吐量全局内存存储吞吐量 DRAM 读取吞吐量 DRAM 写入吞吐量 CUDA C 最佳实践指南将全局内存加载/存储吞吐量描
scala - 如何使用外交将 AHB 端口连接到 DRAM Controller 设备
如何从 Rocket-Chip 连接到外部 AHB 从端口(即内存 Controller 上的 AHB 端口)？我尝试在连接到 AXI4 从设备的其他几个示例之后对我的代码进行模式化，并且工作正常。但
caching - GPU L2 缓存命中率为 100%，DRAM 加载事务有时为 0
我正在试验一个简单的矩阵乘法 CUDA 程序。我发现如果矩阵大小很小(512*512 或更小)，L2 缓存命中率总是 100%。 profiled DRAM read transactions 不稳定
c - 获取 DRAM 或 SRAM galaxy S7 的起始地址
我在 android studio 中使用 NDK 工具为 android 设备编写 C 程序。我想知道如何获取 SRAM 或 DRAM samsung galaxy S7 的起始地址。最佳答案听
linux - 退出 DRAM 中的 Linux 以在 SRAM 中运行裸机代码
没有细节的问题: 是否可以从 Linux 复制裸机可执行文件，从 DDR 运行到处理器内部 SRAM 中并运行它？此应用程序将暂停 DDR 并禁用电源轨以修复硬件问题。详细信息: 我正在开发一款使用

首页

博学

6Ren·AI

商城

cuda - : DRAM Throughput vs Global Memory Throughput有什么区别