- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我关注 this article关于 GPU 的预测模型。在第 5 页的第二列中,他们几乎在最后说
One has to finally take care of the fact that each of the Nc cores(SPs) in an SM on the GPU has a D-deep pipeline that has the effect of executing D threads in parallel.
最佳答案
是的,GPU SM 的管道看起来有点像 CPU 的。不同之处在于管道的前端/后端比例:GPU 具有单个提取/解码和许多小型 ALU(认为有 32 个并行执行子管道),在 SM 内分组为“Cuda 核心”。这类似于超标量 CPU(例如,Core-i7 有 6-8 个问题端口,每个独立 ALU 流水线一个端口)。
有 GTX 460 SM(来自 destructoid.com 的图像;我们甚至可以看到每个 CUDA 核心内部有什么两条管道:调度端口,然后是操作数收集器,然后是两个并行单元,一个用于 Int,另一个用于 FP 和结果队列):
(或来自 http://www.legitreviews.com/images/reviews/1193/sm.jpg 的质量更好的图像 http://www.legitreviews.com/article/1193/2/ )
我们看到这个 SM 中有一个指令缓存,两个 warp 调度器和 4 个调度单元。并且有一个单一的寄存器文件。因此,GPU SM 流水线的第一阶段是 SM 的公共(public)资源。在指令规划之后,它们被分派(dispatch)到 CUDA 核心,每个核心可能有自己的多级(流水线)ALU,特别是对于复杂的操作。
流水线的长度隐藏在架构中,但我假设总流水线深度远大于 4。(显然有 4 个时钟滴答延迟的指令,因此 ALU 流水线 >= 4 阶段,并且假定总 SM 流水线深度为超过20个阶段:https://devtalk.nvidia.com/default/topic/390366/instruction-latency/)
还有一些关于指令完整延迟的附加信息:https://devtalk.nvidia.com/default/topic/419456/how-to-schedule-warps-/ - SP 为 24-28 个时钟,DP 为 48-52 个时钟。
Anandtech 发布了一些 AMD GPU 的图片,我们可以假设两个供应商的流水线的主要思想应该是相似的:http://www.anandtech.com/show/4455/amds-graphics-core-next-preview-amd-architects-for-compute/4
因此,获取、解码和分支单元对于所有 SIMD 内核都是通用的,并且有很多 ALU 管道。在 AMD 中,寄存器文件在 ALU 组之间分段,在 Nvidia 中显示为单个单元(但它可以实现为分段并通过互连网络访问)
正如 this work 中所说
Fine-grained parallelism, however, is what sets GPUs apart. Recall that threads execute synchronously in bundles known as warps. GPUs run most efficiently when the number of warps-in-flight is large. Although only one warp can be serviced per cycle (Fermi technically services two half-warps per shader cycle), the SM's scheduler will immediately switch to another active warp when a hazard is encountered. If the instruction stream generated by the CUDA compiler expresses an ILP of 3.0 (that is, an average of three instructions can be executed before a hazard), and the instruction pipeline depth is 22 stages, as few as eight active warps (22 / 3) may be sufficient to completely hide instruction latency and achieve max arithmetic throughput. GPU latency hiding delivers good utilization of the GPU's vast execution resources with little burden on the programmer.
[16]
注释——这意味着物理上有 16 个相同的 ALU。
关于CUDA 核心管道,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16692572/
我正在使用 Assets 管道来管理我的 Grails 3.0 应用程序的前端资源。但是,似乎没有创建 CoffeeScript 文件的源映射。有什么办法可以启用它吗? 我的 build.gradle
我有一个我想要的管道: 提供一些资源, 运行一些测试, 拆资源。 我希望第 3 步中的拆卸任务运行 不管 测试是否通过或失败,在第 2 步。据我所知 runAfter如果前一个任务成功,则只运行一个任
如果我运行以下命令: Measure-Command -Expression {gci -Path C:\ -Recurse -ea SilentlyContinue | where Extensio
我知道管道是一个特殊字符,我需要使用: Scanner input = new Scanner(System.in); String line = input.next
我再次遇到同样的问题,我有我的默认处理方式,但它一直困扰着我。 有没有更好的办法? 所以基本上我有一个运行的管道,在管道内做一些事情,并想从管道内返回一个键/值对。 我希望整个管道返回一个类型为 ps
我有三个环境:dev、hml 和 qa。 在我的管道中,根据分支,阶段有一个条件来检查它是否会运行: - stage: Project_Deploy_DEV condition: eq(varia
我有 Jenkins Jenkins ver. 2.82 正在运行并想在创建新作业时使用 Pipeline 功能。但我没有看到这个列为选项。我只能在自由式项目、maven 项目、外部项目和多配置之间进
在对上一个问题 (haskell-data-hashset-from-unordered-container-performance-for-large-sets) 进行一些观察时,我偶然发现了一个奇
我正在寻找有关如何使用管道将标准输出作为其他命令的参数传递的见解。 例如,考虑这种情况: ls | grep Hello grep 的结构遵循以下模式:grep SearchTerm PathOfFi
有没有办法不因声明性管道步骤而失败,而是显示警告?目前我正在通过添加 || exit 0 来规避它到 sh 命令行的末尾,所以它总是可以正常退出。 当前示例: sh 'vendor/bin/phpcs
我们正在从旧的 Jenkins 设置迁移到所有计划都是声明性 jenkinsfile 管道的新服务器……但是,通过使用管道,我们无法再手动清除工作区。我如何设置 Jenkins 以允许 手动点播清理工
我在 Python 中阅读了有关 Pipelines 和 GridSearchCV 的以下示例: http://www.davidsbatista.net/blog/2017/04/01/docume
我有一个这样的管道脚本: node('linux'){ stage('Setup'){ echo "Build Stage" } stage('Build'){ echo
我正在使用 bitbucket 管道进行培训 这是我的 bitbucket-pipelines.yml: image: php:7.2.9 pipelines: default:
我正在编写一个程序,其中输入文件被拆分为多个文件(Shamir 的 secret 共享方案)。 这是我想象的管道: 来源:使用 Conduit.Binary.sourceFile 从输入中读取 导管:
我创建了一个管道,它有一个应该只在开发分支上执行的阶段。该阶段还需要用户输入。即使我在不同的分支上,为什么它会卡在这些步骤的用户输入上?当我提供输入时,它们会被正确跳过。 stage('Deplo
我正在尝试学习管道功能(%>%)。 当试图从这行代码转换到另一行时,它不起作用。 ---- R代码--原版----- set.seed(1014) replicate(6,sample(1:8))
在 Jenkins Pipeline 中,如何将工件从以前的构建复制到当前构建? 即使之前的构建失败,我也想这样做。 最佳答案 Stuart Rowe 还在 Pipeline Authoring Si
我正在尝试使用 执行已定义的作业构建 使用 Jenkins 管道的方法。 这是一个简单的例子: build('jenkins-test-project-build', param1 : 'some-
当我使用 where 过滤器通过管道命令排除对象时,它没有给我正确的输出。 PS C:\Users\Administrator> $proall = Get-ADComputer -filter *
我是一名优秀的程序员,十分优秀!