CUDA 核心管道-6ren

CUDA 核心管道

转载作者：行者123 更新时间：2023-12-04 22:32:36

27

4

我关注 this article关于 GPU 的预测模型。在第 5 页的第二列中，他们几乎在最后说

One has to finally take care of the fact that each of the Nc cores(SPs) in an SM on the GPU has a D-deep pipeline that has the effect of executing D threads in parallel.

我的问题与 有关D-深管道 .这条管道是什么样的？它是否类似于 CPU 的管道(我的意思是仅这个想法，因为 GPU-CPU 的架构完全不同)关于获取、解码、执行、写回？

是否有文档记录了这一点？

最佳答案

是的，GPU SM 的管道看起来有点像 CPU 的。不同之处在于管道的前端/后端比例:GPU 具有单个提取/解码和许多小型 ALU(认为有 32 个并行执行子管道)，在 SM 内分组为“Cuda 核心”。这类似于超标量 CPU(例如，Core-i7 有 6-8 个问题端口，每个独立 ALU 流水线一个端口)。

有 GTX 460 SM(来自 destructoid.com 的图像；我们甚至可以看到每个 CUDA 核心内部有什么两条管道:调度端口，然后是操作数收集器，然后是两个并行单元，一个用于 Int，另一个用于 FP 和结果队列):

(或来自 http://www.legitreviews.com/images/reviews/1193/sm.jpg 的质量更好的图像 http://www.legitreviews.com/article/1193/2/ )

我们看到这个 SM 中有一个指令缓存，两个 warp 调度器和 4 个调度单元。并且有一个单一的寄存器文件。因此，GPU SM 流水线的第一阶段是 SM 的公共(public)资源。在指令规划之后，它们被分派(dispatch)到 CUDA 核心，每个核心可能有自己的多级(流水线)ALU，特别是对于复杂的操作。

流水线的长度隐藏在架构中，但我假设总流水线深度远大于 4。(显然有 4 个时钟滴答延迟的指令，因此 ALU 流水线 >= 4 阶段，并且假定总 SM 流水线深度为超过20个阶段:https://devtalk.nvidia.com/default/topic/390366/instruction-latency/)

还有一些关于指令完整延迟的附加信息:https://devtalk.nvidia.com/default/topic/419456/how-to-schedule-warps-/ - SP 为 24-28 个时钟，DP 为 48-52 个时钟。

Anandtech 发布了一些 AMD GPU 的图片，我们可以假设两个供应商的流水线的主要思想应该是相似的:http://www.anandtech.com/show/4455/amds-graphics-core-next-preview-amd-architects-for-compute/4

AMD core according to Anandtech

因此，获取、解码和分支单元对于所有 SIMD 内核都是通用的，并且有很多 ALU 管道。在 AMD 中，寄存器文件在 ALU 组之间分段，在 Nvidia 中显示为单个单元(但它可以实现为分段并通过互连网络访问)

正如 this work 中所说

Fine-grained parallelism, however, is what sets GPUs apart. Recall that threads execute synchronously in bundles known as warps. GPUs run most efficiently when the number of warps-in-flight is large. Although only one warp can be serviced per cycle (Fermi technically services two half-warps per shader cycle), the SM's scheduler will immediately switch to another active warp when a hazard is encountered. If the instruction stream generated by the CUDA compiler expresses an ILP of 3.0 (that is, an average of three instructions can be executed before a hazard), and the instruction pipeline depth is 22 stages, as few as eight active warps (22 / 3) may be sufficient to completely hide instruction latency and achieve max arithmetic throughput. GPU latency hiding delivers good utilization of the GPU's vast execution resources with little burden on the programmer.

因此，管道前端(SM 调度器)每个时钟一次只调度一个扭曲，并且调度器的调度与 ALU 完成计算的时间之间存在一些延迟。

部分图片来自 Realworldtech http://www.realworldtech.com/cayman/5/ 和 http://www.realworldtech.com/cayman/11/ 与 Fermi 管道。注意每个 ALU/FPU 中的 [16] 注释——这意味着物理上有 16 个相同的 ALU。

fermi pipeline according to Realwordtech

fermi pipeline according to Realwordtech

关于CUDA 核心管道，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16692572/

27

4

0

文章推荐： visual-studio-2012 - vs2012如何生成.trx文件？

文章推荐： django - 用 Django 返回 GeoJson

Grails 3 Assets 管道/咖啡 Assets 管道
我正在使用 Assets 管道来管理我的 Grails 3.0 应用程序的前端资源。但是，似乎没有创建 CoffeeScript 文件的源映射。有什么办法可以启用它吗？我的 build.gradle
jenkins-pipeline - 失败后继续 Tekton 管道(类似于 jenkins 管道 catchError 行为)
我有一个我想要的管道: 提供一些资源，运行一些测试，拆资源。我希望第 3 步中的拆卸任务运行不管测试是否通过或失败，在第 2 步。据我所知 runAfter如果前一个任务成功，则只运行一个任
PowerShell 管道
如果我运行以下命令: Measure-Command -Expression {gci -Path C:\ -Recurse -ea SilentlyContinue | where Extensio
Java输入解析与分隔符| (管道)
我知道管道是一个特殊字符，我需要使用: Scanner input = new Scanner(System.in); String line = input.next
Powershell 管道 - 返回一个在管道内创建的新对象
我再次遇到同样的问题，我有我的默认处理方式，但它一直困扰着我。有没有更好的办法？所以基本上我有一个运行的管道，在管道内做一些事情，并想从管道内返回一个键/值对。我希望整个管道返回一个类型为 ps
Azure 管道 - 阶段条件取决于
我有三个环境:dev、hml 和 qa。在我的管道中，根据分支，阶段有一个条件来检查它是否会运行: - stage: Project_Deploy_DEV condition: eq(varia
Jenkins 管道 - 为什么管道选项不显示
我有 Jenkins Jenkins ver. 2.82 正在运行并想在创建新作业时使用 Pipeline 功能。但我没有看到这个列为选项。我只能在自由式项目、maven 项目、外部项目和多配置之间进
haskell - 管道:产生内存泄漏
在对上一个问题 (haskell-data-hashset-from-unordered-container-performance-for-large-sets) 进行一些观察时，我偶然发现了一个奇
命令参数的 Unix 管道
我正在寻找有关如何使用管道将标准输出作为其他命令的参数传递的见解。例如，考虑这种情况: ls | grep Hello grep 的结构遵循以下模式:grep SearchTerm PathOfFi
Jenkinsfile 管道，返回警告但不会失败
有没有办法不因声明性管道步骤而失败，而是显示警告？目前我正在通过添加 || exit 0 来规避它到 sh 命令行的末尾，所以它总是可以正常退出。当前示例: sh 'vendor/bin/phpcs
Jenkins 管道 - 手动清除工作区？
我们正在从旧的 Jenkins 设置迁移到所有计划都是声明性 jenkinsfile 管道的新服务器……但是，通过使用管道，我们无法再手动清除工作区。我如何设置 Jenkins 以允许手动点播清理工
python - 管道:多个分类器？
我在 Python 中阅读了有关 Pipelines 和 GridSearchCV 的以下示例: http://www.davidsbatista.net/blog/2017/04/01/docume
Jenkins 管道 - 无法在空对象上调用方法阶段()
我有一个这样的管道脚本: node('linux'){ stage('Setup'){ echo "Build Stage" } stage('Build'){ echo
Bitbucket 管道 - 无法从远程存储库中读取？
我正在使用 bitbucket 管道进行培训这是我的 bitbucket-pipelines.yml: image: php:7.2.9 pipelines: default:
haskell - 管道 - 管道内的多个输出文件
我正在编写一个程序，其中输入文件被拆分为多个文件(Shamir 的 secret 共享方案)。这是我想象的管道: 来源:使用 Conduit.Binary.sourceFile 从输入中读取导管:
Jenkins 管道 - 阶段与时间和输入
我创建了一个管道，它有一个应该只在开发分支上执行的阶段。该阶段还需要用户输入。即使我在不同的分支上，为什么它会卡在这些步骤的用户输入上？当我提供输入时，它们会被正确跳过。 stage('Deplo
R 管道 (%>%) 不适用于复制功能
我正在尝试学习管道功能(％>％)。当试图从这行代码转换到另一行时，它不起作用。 ---- R代码--原版----- set.seed(1014) replicate(6,sample(1:8))
Jenkins 管道，如何将工件从以前的构建复制到当前构建？
在 Jenkins Pipeline 中，如何将工件从以前的构建复制到当前构建？即使之前的构建失败，我也想这样做。最佳答案 Stuart Rowe 还在 Pipeline Authoring Si
Jenkins 管道 - 使用参数构建
我正在尝试使用执行已定义的作业构建使用 Jenkins 管道的方法。这是一个简单的例子: build('jenkins-test-project-build', param1 : 'some-
Powershell 管道，其表现不符合预期
当我使用 where 过滤器通过管道命令排除对象时，它没有给我正确的输出。 PS C:\Users\Administrator> $proall = Get-ADComputer -filter *

首页

博学

6Ren·AI

商城

CUDA 核心管道