cuda - 指令级并行和线程级并行如何在 GPU 上工作？-6ren

cuda - 指令级并行和线程级并行如何在 GPU 上工作？

转载作者：行者123 更新时间：2023-12-01 06:21:03

38

4

假设我正在尝试对数组大小 n 进行简单的缩减，比如保留在一个工作单元内……比如添加所有元素。一般的策略似乎是在每个 GPU 上生成多个工作项，从而减少树中的项。天真地，这似乎需要 log n 步，但并不是说第一波线程都一次性完成这些线程，是吗？他们被安排在经线中。

for(int offset = get_local_size(0) / 2;
      offset > 0;
      offset >>= 1) {
     if (local_index < offset) {
       float other = scratch[local_index + offset];
       float mine = scratch[local_index];
       scratch[local_index] = (mine < other) ? mine : other;
     }
     barrier(CLK_LOCAL_MEM_FENCE);
   }

因此并行添加 32 个项目，然后该线程在屏障处等待。还有 32 人去，我们在栅栏边等。再走 32 次，我们在屏障处等待，直到所有线程都完成了到达树最顶层所需的 n/2 次加法，然后我们绕循环。凉爽的。

这看起来不错，但也许复杂？我知道指令级并行性很重要，所以为什么不产生一个线程并执行类似的操作

while(i<array size){
    scratch[0] += scratch[i+16]
    scratch[1] += scratch[i+17]
    scratch[2] += scratch[i+17]
    ...
    i+=16
}
...
int accum = 0;
accum += scratch[0]
accum += scratch[1]
accum += scratch[2]
accum += scratch[3]
...

这样所有的添加都发生在一个经线中。现在你有一个线程可以让 gpu 随心所欲地忙碌。

现在假设指令级并行性并不是真正的东西。将工作大小设置为 32(经纱数)后，以下情况如何？

for(int i = get_local_id(0);i += 32;i++){
    scratch[get_local_id(0)] += scratch[i+get_local_id(0)]
}

然后将前 32 个项目加在一起。我想这 32 个线程会一次又一次地继续触发。

如果您不反对放弃 OpenCL 的通用性，那么当您知道每个周期会触发多少个添加项时，为什么还要在树中减少呢？

最佳答案

一个线程无法让 GPU 保持忙碌。这与说一个线程可以让 8 核 CPU 保持忙碌大致相同。

为了最大限度地利用计算资源以及可用内存带宽，有必要利用整个机器(即可以执行线程的所有可用资源)。

对于大多数较新的 GPU，您当然可以通过指令级并行性提高性能，让您的线程代码按顺序拥有多个独立指令。但是你不能把所有这些都扔到一个线程中并期望它提供良好的性能。

当您按顺序有 2 条指令时，如下所示:

scratch[0] += scratch[i+16]
scratch[1] += scratch[i+17]

这对 ILP 有好处，因为这两个操作彼此完全独立。但是，由于 GPU 发出内存事务的方式，第一行代码将参与特定的内存事务，而第二行代码必然会参与不同的内存事务。

当我们有一个 warp 一起工作时，一行代码是这样的:

float other = scratch[local_index + offset];

将导致 warp 的所有成员生成一个请求，但这些请求将全部合并为一个或两个内存事务。这就是您可以实现充分带宽利用的方法。

尽管大多数现代 GPU 都有缓存，并且缓存会在某种程度上弥补这两种方法之间的差距，但它们绝不会弥补所有经线成员发出组合请求与单个经线之间的巨大差异成员按顺序发出一组请求。

您可能需要阅读 GPU 内存合并。由于您的问题似乎以 OpenCL 为中心，您可能对 this document 感兴趣.

关于cuda - 指令级并行和线程级并行如何在 GPU 上工作？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18068264/

38

4

0

文章推荐： json - 招摇的用户界面 : Prettify JSON

文章推荐： Jquery:计算模糊事件的值

文章推荐： php - 想要显示ajax加载gif

文章推荐： jquery - 使用 jQuery 编写插件函数

angularjs - 多个指令 [指令#1，指令#2] 要求隔离范围
我正在尝试在现有指令的基础上构建一个新指令，但我在我的过程中停止了。加载页面时，我面临以下错误: Multiple directives [directive#1, directive#2] aski
jquery - 指令 AngularJS 仅输入 1 到 10 范围内的数字，jquery 指令 AngularJS
我是 angularjs 世界的新手，我只需要在数字类型的输入中输入从 1 到 10 的数字。不使用 HTML5 的 min 和 max 属性我在 Jquery 中找到了一个示例，能否帮我将其转换为
javascript - Ionic 指令 VS 使用 Ionic Framework 的 Angular Material 指令
我想使用 ionic与 Material 设计。我被困在使用带有自定义 CSS 的 ionic 指令和 angular-material 之间。我读过使用 ionic 指令我们得到了很多高效的特性，
javascript - 普通 JS 到 Angular 指令；创建使用 Angular Directive(指令)的 DOM 元素
我创建了以下代码: var node = document.getElementById('TreeList'); var keys = Object.keys(model[0]); var trac
javascript - 在 angularjs 中，我们有 ng-disabled 指令，为什么框架没有提供 ng-enabled 指令，因为我们有 ng-show 和 ng-hide
在 AngularJs 中没有提供 ng-enabled 指令。是否有任何适当的理由不在框架中提供该指令，因为当您可以使用 ng- 时，我们同时拥有 ng-show 和 ng-hide隐藏来实现我们的
C忽略 "if"指令
我最近制作的程序有问题。基本上，它是 John Conway 人生游戏的简单版本，但它运行不正常。问题出在读取单元格及其邻居的状态并决定该单元格的 future 状态的代码中。这是代码的一部分(有点长
Dockerfile FROM 指令
Dockerfile reference关于 FROM 指令的内容如下: FROM can appear multiple times within a single Dockerfile in or
AngularJS 指令 - 隔离作用域和继承作用域
我一直在尝试理解指令中孤立作用域和继承作用域之间的区别。这是我准备让自己理解的一个例子: HTML Inside isolated scope directive: {{m
AngularJs 指令 - 如何从指令中获取属性值
知道如何从指令内部访问属性值吗？ angular.module('portal.directives', []) .directive('languageFlag', ['$r
汇编 "mov"指令
我正在通过将 c 程序与其等价的汇编程序进行比较来学习汇编。这是代码。 .file "ex3.c" .section .rodata .LC0: .string "I am %d
Jenkinsfile 'parallel' 指令
我正在尝试写一个 Jenkinsfile并行执行一系列步骤。目标是拥有两个 agents (又名。 nodes )。一个应该进行 Windows 构建，另一个应该进行 linux 构建。但是，我不希望
assembly - 指令 FYL2XP1
我想知道为什么指令 FYL2XP1在 x86 架构上精确计算数学公式 y · log2(x + 1)。这个公式有什么特别之处？最佳答案 y操作数通常是编译时常量，暂时忘记 x + 1 . 自 lo
sql - 将逗号分隔的SQL数据转为SQL "in"指令
这个问题已经有答案了: Parameterize an SQL IN clause (41 个回答) 已关闭 8 年前。第一个声明: Select GroupMember FROM Group 结果
AngularJS 指令 - 如何在异步数据加载后刷新模板
我从 this question fork 并编辑了一个 plunker 我想做的是在数据加载后更新/填充 SELECT 元素(组合框)，但有些事情不对劲。我检索数据，它位于 SELECT 元素的范围
用于解析和替换自定义元素内容的 AngularJS 指令
我想创建一个简单的 markdown 指令，它接受元素中的一些内容，解析它并用 html 替换它。所以这样: #Heading 或这个(其中 $scope.heading = '#Heading';
Ansible local_action 指令
我对 Ansible 还很陌生，对于我对 local_action 指令的理解有一个简单的问题。这是否意味着该命令完全在本地执行？假设你有这样的东西: local_action: command w
Angularjs 指令 - 通过类名选择下一个元素
我有以下 HTML: ... ... 以及以下指令: myApp.directive('specialInput', ['$timeout', function($timeout)
用于文件下载的 Apache 指令
如何在 .htaccess 中创建 Apache 指令强制文件 .mp4和 .pdf去下载？目前它们出现在浏览器窗口中。相反，我希望出现一个下载文件对话框。最佳答案将以下内容添加到 .htacce
c - fork 指令
我的问题是关于 C 中的 fork() 指令。我有以下程序: void main(){ int result, status; result = fork(); if(result=
javascript - Angularjs 指令
我想要一个类似于 ng-model 的属性指令。我只想另外将一个输入字段值绑定(bind)到一个范围变量(只是在一个方向输入字段 ->范围变量)。所以我刚刚尝试了这个指令，但无论如何我都无法调用该指令

首页

博学

6Ren·AI

商城

cuda - 指令级并行和线程级并行如何在 GPU 上工作？