cuda - Nsight Compute 如何确定/显示共享内存指标？-6ren

cuda - Nsight Compute 如何确定/显示共享内存指标？

转载作者：行者123 更新时间：2023-12-03 17:00:15

68

4

我正在学习 __shared__ CUDA 中的内存，我对 Nsight Compute 如何显示共享内存统计信息感到困惑。

我正在经历this article (代码在 Nvidia 的 github here 上可用，但在下面复制以供引用)。

#include <stdio.h>

__global__ void staticReverse(int *d, int n)
{
  __shared__ int s[64];
  int t = threadIdx.x;
  int tr = n-t-1;
  s[t] = d[t];
  __syncthreads();
  d[t] = s[tr];
}

__global__ void dynamicReverse(int *d, int n)
{
  extern __shared__ int s[];
  int t = threadIdx.x;
  int tr = n-t-1;
  s[t] = d[t];
  __syncthreads();
  d[t] = s[tr];
}

int main(void)
{
  const int n = 64;
  int a[n], r[n], d[n];

  for (int i = 0; i < n; i++) {
    a[i] = i;
    r[i] = n-i-1;
    d[i] = 0;
  }

  int *d_d;
  cudaMalloc(&d_d, n * sizeof(int)); 

  // run version with static shared memory
  cudaMemcpy(d_d, a, n*sizeof(int), cudaMemcpyHostToDevice);
  staticReverse<<<1,n>>>(d_d, n);
  cudaMemcpy(d, d_d, n*sizeof(int), cudaMemcpyDeviceToHost);
  for (int i = 0; i < n; i++) 
    if (d[i] != r[i]) printf("Error: d[%d]!=r[%d] (%d, %d)\n", i, i, d[i], r[i]);

  // run dynamic shared memory version
  cudaMemcpy(d_d, a, n*sizeof(int), cudaMemcpyHostToDevice);
  dynamicReverse<<<1,n,n*sizeof(int)>>>(d_d, n);
  cudaMemcpy(d, d_d, n * sizeof(int), cudaMemcpyDeviceToHost);
  for (int i = 0; i < n; i++) 
    if (d[i] != r[i]) printf("Error: d[%d]!=r[%d] (%d, %d)\n", i, i, d[i], r[i]);
}

当我运行 Nsight Compute 时，我看到以下图表 staticReverse内核( dynamicReverse 内核几乎相同):

问题 1 : 图表显示1个请求到共享内存和1个请求来自共享内存，但为什么它也显示0个共享内存指令？请求不算作指令吗？从这个图表的角度来看，什么算作共享内存指令？

接下来，在源 View 中，Nsight Compute 显示各种指标的逐行计数:

问题 2 :为什么第 8 行和第 10 行的“Memory L1 Transactions Shared”显示为 0？我期待看到:

第 8 行:相等数量的 [从全局内存加载事务] 和 [将事务存储到共享内存]

第 10 行:相等数量的 [从共享内存加载事务] 和 [将事务存储到全局内存]

问题 3 :为什么第 8 行和第 10 行各有 8 个内存事务？

我的系统:

Ubuntu 18.04 LTS

GeForce 1070 (帕斯卡)

CUDA 版本:10.2

驱动程序版本:440.64.00

最佳答案

如果您可以检查(并在此处显示)Source 页面的低级 SASS View 以及高级 CUDA-C View ，那就太好了。根据 SASS(汇编)指令收集源指标，然后在 CUDA-C View 中汇总。检查实际程序集可以提供有关编译器生成的指令类型的信息，并且可以更好地解释您看到的数据。

Does a request not count as an instruction? From this chart's perspective, what counts as a shared memory instruction?

请求和指示不是一回事。指令是正在执行的实际 SASS 汇编指令。请求由硬件作为执行指令的结果生成，请求的数量可能会根据代码的表现而有所不同。

关于cuda - Nsight Compute 如何确定/显示共享内存指标？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62042551/

68

4

0

文章推荐： gekko - Gekko 中的拉格朗日乘数(边际)

文章推荐： objective-c - 隐藏/显示 NSToolbarItem

文章推荐： objective-c - NSFileHandle readInBackgroundAndNotify 不起作用

文章推荐： android - 使用 NavDeepLinkBuilder 构建 fragment 回栈

cuda - Nsight 跳过(忽略)VS10 Cuda 中的断点工作正常，nsight 始终跳过多个断点
我正在使用 nsight 2.2、Toolkit 4.2、最新的 nvidia 驱动程序，我在我的计算机中使用了几个 GPU。构建自定义 4.2。我在 CUDA 的项目属性上设置了“生成 GPU 输出
c++ - NSight 包含来自另一个项目的文件
我一直在尝试让一个 Nsight 项目(项目 1)使用另一个 Nsight 项目(2)中的一些文件，但我终究无法构建项目 1! 我已经尝试引用/设置包括路径/将项目 2 构建为 lib 等，但没有任何
c++ - NSight 分析器使应用程序崩溃
我正在尝试使用 NSight Visual Studio 分析器分析以下内核: __global__ void cuMultiplyMatricesStandard(float* A, float*
Cuda 和 Nsight - 发布
我已经成功安装了 Cuda SDK 并使用 HelloWorld 测试了编译器然后我打开了 Nsight 并尝试使用相同的代码。我得到了这个答案“启动失败。找不到二进制文件。”这是Nsight中涉
debugging - NSight attach 显示没有可用的进程
我有一个奇怪的问题，当尝试使用 NSight 附加应用程序时，列表中没有显示可用的进程。我正在尝试调试 CUDA 代码。所以我将我的 VS2012 项目附加到一个应用程序(MATLAB)。它曾经工作
cuda - Nsight 分析器显示的 "Other"问题停止原因是什么？
我的内核在 CC 3.0 (Kepler) 上的性能比在 CC 2.0 (Fermi) 上的性能差。在 Nsight 分析器中，Warp Issue Efficiency 图表显示 60% 的时间没有
c++ - Nsight Eclipse 找不到共享库
我正在使用 NSight Eclipse 创建一个类库，其中包含 CUDA 加速类，旨在由第三方应用程序扩展和使用。让我们称我的项目为“foo”。我想通过在一个单独的项目中编写一个第三方应用程序来测试
c++ - Nvidia Nsight - 如何连接到本地主机？
我正在尝试将“localhost”设置为 Nsight 的连接名称(我在 VS2010 上使用 CUDA 4.2 和 Nsight 2.2)但是有类似“localhost overridden to
c++ - 使用 Nsight 确定银行冲突和合并
我如何使用并行 nsight 知道非合并读/写和存储区冲突的数量？此外，当我使用 nsight 是一个分析器时我应该看什么？哪些重要字段可能会导致我的程序变慢？最佳答案我不使用 NSight，但
linux - NSight 探查器信号 139
我正在尝试使用 NSight 中的内置分析器分析我的程序，但分析 session 在启动后立即终止，并且我收到反馈“警告:应用程序收到信号 139”。这是什么意思？我还收到以下错误消息: Unabl
linux - 无法启动 Nvidia nsight
最初 Java 虚拟机甚至无法启动，但我通过编辑 nsight.ini 文件并删除来修复 -XX:MaxPermSize=256m 和更新 -Dosgi.requiredJavaVersion 所以我
cuda - 我可以将 NVIDIA Nsight 连接到远程计算机吗？
我的电脑上没有支持 CUDA 的显卡。我可以使用 ssh(或其他任何方式)将 NVIDIA Nsight 连接到远程计算机吗？最佳答案是的，您可以使用 Nsight Visual Studio E
cuda - 在 Nsight Compute 中解释计算工作负载分析
计算工作负载分析显示不同计算管道的利用率。我知道在现代 GPU 中，整数和浮点管道是不同的硬件单元，可以并行执行。但是，对于其他管道，哪个管道代表哪个硬件单元并不是很清楚。我也找不到任何关于管道缩写和
debugging - CUDA 无法在 Nsight 调试中看到共享内存值
我一直在为一个我似乎无法找到解决方案的问题而苦苦挣扎。问题是，当我尝试在 Visual Studio 2008 下使用 Nvidia Nsight 调试我的 CUDA 代码时，我在使用共享内存时得到
cuda - Nsight Compute 如何确定/显示共享内存指标？
我正在学习 __shared__ CUDA 中的内存，我对 Nsight Compute 如何显示共享内存统计信息感到困惑。我正在经历this article (代码在 Nvidia 的 githu
c++ - 如何在 nsight eclipse 版本中查看变量值
我正在使用 nsight eclipse 版本，我现在无法弄清楚如何在 Debug模式下查看变量值(意思是主机内存中的普通变量，到目前为止调试普通的 c++ 代码)。“变量”选项卡不包含任何对我有用的
c++ - 将顶点位置从顶点传递到片段着色器 - 仅在使用 Nsight 调试时有效
我正在尝试将顶点位置作为简单的 out vec3 pos 从顶点着色器传递到片段着色器，以便根据顶点的位置对顶点进行着色。这是我的顶点着色器代码: #version 330 core in vec3
eclipse - Nsight Eclipse Cuda + opencv
我用cuda5.5安装了nsight。一切正常，但我正在尝试在主机上运行 opencv 函数来生成图像。我包括 opencv header 路径以及我需要的库路径。当我尝试编译时出现此错误 /Appl
linux - 如何在 Nsight Eclipse 中包含多个源文件？
我有一个包含许多源文件的项目(示例:main.cu、a.cu、b.cu、c.cu、d.cu)。每个都有函数和内核调用(全局和设备)。在头文件 (cpu.h) 中，主机端使用的所有结构和定义。另一个
cuda - Nsight Eclipse not found/CUDA11.1安装问题
安装cuda后找不到Nsight Eclipse Edition 我在Ubuntu18.04上安装了cuda11.1(之前安装了Nvidia驱动)，没有报错。但是当我在终端上输入“nvcc -V”和“

首页

博学

6Ren·AI

商城

cuda - Nsight Compute 如何确定/显示共享内存指标？