cuda - Nvidia Jetson Tx1 与 jetson NANO(基准测试)-6ren

cuda - Nvidia Jetson Tx1 与 jetson NANO(基准测试)

转载作者：行者123 更新时间：2023-12-02 09:07:05

25

4

根据 https://elinux.org/Jetson，我目前正在尝试将 Jetson TX1 与 jetson NANO 进行基准测试。，它们都具有 maxwell 架构，NANO 有 128 个 cuda 内核，TX1 有 256 个 cuda 内核。这意味着通常 Jetson NANO 的性能是 TX1 的一半。

为了测试这一点，我创建了一个单(浮点)运算乘法内核，如下所示:

__global__ void matrixMultiply(float* mat1, float* mat2, int nx, int ny)
    {
        unsigned int ix = threadIdx.x + blockDim.x*blockIdx.x;
        unsigned int iy = threadIdx.y + blockDim.y*blockIdx.y;
        int idx = iy*nx + ix;

        mat1[idx] = mat1[idx]*mat2[idx] ;

    }

测试:TX1 = 130 ms 和 Jetson NANO = 150 ms 乘以 2“大小为 15000*15000 的浮点数组”。结果看起来很奇怪，就像我没有使用TX1的第二个SM，
因此我使用 sm_efficiency (TX1 and NANO = 100%) 进行了分析，
达到的占用率(TX1 = 92%，NANO = 88%)。我在这里遗漏了什么，或者我只是没有使用正确的网格和块配置。

P.S:我尝试了所有可能的配置，两个平台的最佳配置是 (256, 1) 块和相应计算的网格。

最佳答案

Am I missing something here

是的，你在这里遗漏了一些东西。您的代码不会衡量您的想法:

they both have the maxwell architecture with 128 cuda cores for NANO and 256 for TX1. This means that normally Jetson NANO will achieve half the performance of the TX1.

如果您的代码的限制因素是与 CUDA 内核相关的计算性能，那么该陈述大致正确。但是，对于您的代码，事实并非如此，这很容易证明。

我们将从一些规范开始:

spec                 | TX1         | Nano     | source
---------------------=-------------=----------=----------
mem bandwidth (GB/s) | 25.6        | 25.6     | 1,2
---------------------=-------------=----------=----------
(FP32) compute cores | 256         | 128      | 1,2
---------------------=-------------=----------=----------
max core clock (MHz) | 998         | 921      | 1,2

来源: 1 , 2

要计算最大理论 FP32 计算吞吐量， the formula是:

# of SMs * # of FP32 units per SM * 2 * clock rate

对于杰森纳米:

128 * 2 * 921MHz = ~236GFlops/s

对于 Jetson TX1:

256 * 2 * 998MHz = ~511GFlops/s

(上面公式中的 2 乘数是因为最大吞吐量是针对进行乘加运算的代码，而不仅仅是乘法)

现在让我们分析代码中 FP32 计算与内存利用率的比率(忽略任何用于索引计算的整数算法):

    mat1[idx] = mat1[idx]*mat2[idx] ;

我们看到，对于每个 FP32 乘法运算，我们必须读取两个数量(总共 8 个字节)并写入一个数量(总共 4 个字节)。因此，每个乘法运算需要 12 个字节的读/写。

现在让我们假设您可以在 TX1 上达到 511GFlops/s 的峰值乘法吞吐量。即每秒 511,000,000,000 次乘加运算，或约 256,000,000,000 次乘法运算。如果每秒可以达到 256B 乘法运算，则每次乘法将需要 12 字节的读/写事件，因此所需的总带宽为:

256,000,000,000 multiply ops              12 bytes        3,072,000,000,000 bytes
----------------------------    *        -----------   =  -----------------------
            sec                          multiply op              sec

这意味着它需要每秒约 3 TB 的内存带宽，因为您的代码将受到 TX1 计算吞吐量的限制。但 TX1 每秒只有 25.6 GB 的内存带宽。所以TX1的内存带宽会限制你代码的吞吐量。类似的计算表明，NANO 的内存带宽也会限制您代码的吞吐量，因此您的代码两者之间的性能比的预测指标是内存带宽的比率:

25.6GB/s
--------     = 1
25.6GB/s

因此，您观察到两者之间的性能几乎相同:

150
---          = 1.15
130

对于您的代码来说，这是一个更明智的结果，而不是期望性能比为 2:1。

如果您想查看接近 2:1 比率的代码，您将需要一个执行大量计算操作同时几乎不消耗(相对而言)内存带宽的代码。此类代码的一个可能的现实示例可能是矩阵-矩阵乘法，您可以轻松编写 CUBLAS Sgemm代码来测试这个。请注意，2:1 的比率期望在这里不太合适，因为核心时钟不一样。预期比率为:

511
--- = ~2.17
236

关于cuda - Nvidia Jetson Tx1 与 jetson NANO(基准测试)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56953183/

25

4

0

文章推荐： sas - 如何删除特殊 ASCII 字符？

文章推荐： php - Laravel 模型恢复事件

文章推荐： wordpress - 在云上进行多区域Wordpress部署

tensorflow - NVIDIA-SMI 失败，因为它无法与 NVIDIA 驱动程序通信。确保安装并运行了最新的 NVIDIA 驱动程序。为什么？
我正在尝试在 Google Colab 上运行 stylegan2，但在我的 Drive 上运行所有文件，并避免使用 !git clone 从 github of stylegan2 。这是我在特定
tensorflow - 如何卸载 NVIDIA 内核模块 'nvidia' 以安装新驱动程序？
我需要升级我的 nvidia 驱动程序，以便尝试运行 NVIDIA-LInux-x86_64.run文件但是，我看到以下消息 ERROR: An NVIDIA kernel module 'nvid
nvidia - Cuda 内核代码驻留在 nvidia GPU 上的什么位置？
我经历过Cuda programming guide但仍然不清楚 cuda 内核在 GPU 上的什么位置？换句话说，它驻留在哪个内存段？另外，我怎么知道我的设备支持的最大内核大小是多少？最大内核大小
docker - nvidia/cuda 镜像中的 NVidia 驱动程序库
我想在基于官方nvidia/cuda的容器中运行带有cuvid硬件加速解码的ffmpeg图片。 Ffmpeg 无法找到 libnvcuvid.so，尽管有所有必需的 cuda 库。ldconfig -
ubuntu - nvidia-smi 和 nvidia x 服务器设置之间的顺序不同
当我运行命令 nvidia-smi ，我得到以下两个按总线 ID 排序的 GPU: For GPU 0, 00000000:0A:00.0 For GPU 1, 00000000:41:00.0 但是
gpu - NVIDIA-SMI 失败，因为无法与 NVIDIA 驱动程序通信
我正在使用 Ubuntu 14.04 LTS 运行 AWS EC2 g2.2xlarge 实例。我想在训练 TensorFlow 模型时观察 GPU 利用率。我在尝试运行“nvidia-smi”时遇到
docker - Nvidia-docker : Unknown runtime specified nvidia
我尝试在安装 docker-ce 后安装 nvidia-docker。我关注的是:https://github.com/NVIDIA/nvidia-docker安装 nvidia-docker。看来已
cuda - Nvidia Hyper Q 和 Nvidia Streams 有什么区别？
我一直认为 Hyper-Q 技术不过是 GPU 中的流。后来我发现我错了(是吗？)。所以我读了一些关于 Hyper-Q 的书，却更加困惑了。我正在浏览一篇文章，它有以下两个陈述: A. Hyper-
cuda - 如何用 NVIDIA GPU 解释这个关于 `nvidia-smi` 的数字？
我刚刚在安装了两个 K20m GPU 的服务器中运行了 simpleMultiGPU。然后运行 nvidia-smi 命令来显示 GPU 的状态。结果如下: 问题如下: GPU 内存使用情况似乎不
linux - 错误 : NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver
NVIDIA-SMI 抛出此错误: NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make
nvidia - 如何通过 Vulkan 使用 Nvidia 的 Tensor Core
如何使用 Vulkan 来利用 Nvidia 的张量核心(在计算着色器中？!)？ Nvidia 有这篇文章 Programming Tensor Cores in CUDA 9 ，但这显然是针对 CU
nvidia - 使用 Chapel 使用两个 Nvidia Jetson nano 开发工具包时遇到问题
我在类的一个项目中使用 Chapel，我正在尝试使用我的两个 Nvidia Jetson nano 板进行多语言环境执行。按照本教程 https://chapel-lang.org/docs/usin
tensorflow - 内存使用指标 `nvidia-smi dmon` 与 `nvidia-smi` 之间有何差异
我得到nvidia-smi得到Memory-Usage是这样的 $nvidia-smi -i 0,1 Wed Mar 4 16:20:07 2020 +-----------------
tensorflow - 内存使用指标 `nvidia-smi dmon` 与 `nvidia-smi` 之间有何差异
我得到nvidia-smi得到Memory-Usage是这样的 $nvidia-smi -i 0,1 Wed Mar 4 16:20:07 2020 +-----------------
docker - nvidia-docker run 与 docker run --runtime=nvidia
有没有区别: nvidia-docker 运行和 docker run --runtime=nvidia ? 在 official docs他们使用后者，但我在其他在线教程中看到过前者。最佳答案
c - 我需要为 OpenCL 安装 Nvidia 的 SDK(CUDA) 来检测 Nvidia GPU 吗？
我有一个用 C 编写的代码(使用 opencl 规范)来列出所有可用的设备。我的 PC 安装了 AMD FirePro 和 Nvidia 的 Tesla 显卡。我先安装了AMD-APP-SDK-v3.
nvidia - cuda内核调用是同步的还是异步的
我读到可以使用内核启动来同步不同的 block ，即，如果我希望所有 block 在进行操作 2 之前完成操作 1，我应该将操作 1 放在一个内核中，将操作 2 放在另一个内核中。这样，我可以实现 b
nvidia - nvapi在d3d10中使用NvAPI_Stereo_SetDriverMode
我目前正在尝试使用函数 NvAPI_Stereo_SetDriverMode 将 nvapi 设置为在直接模式下工作。根据 Nvidia nvapi site (在手册中)，如果你想做一个 dire
cuda - NVIDIA GPU的任务调度
我对nvidia GPU的任务调度有些疑惑。 (1)如果一个 block (CTA)中的线程束已经完成，但仍有其他线程在运行，这个线程会等待其他线程完成吗？换句话说，当所有线程都完成时， block
tensorflow - Nvidia TX1上的TensorFlow
有人在Nvidia Tegra X1上使用了tensorflow吗？我发现一些资料表明TK1上可能存在这种情况，或者TX1上存在严重的黑客入侵/错误，但尚无确定的配方。 http://cudamus

首页

博学

6Ren·AI

商城

cuda - Nvidia Jetson Tx1 与 jetson NANO(基准测试)