cuda - 硬件 warp 调度程序如何形成和处理 warp？-6ren

cuda - 硬件 warp 调度程序如何形成和处理 warp？

转载作者：行者123 更新时间：2023-12-01 22:36:59

31

4

我的问题是关于 warp 和调度的。我在这里使用 NVIDIA 费米术语。我的观察如下，它们正确吗？

一个。同一 warp 中的线程执行相同的指令。每个 warp 包含 32 个线程。

根据费米白皮书:“费米的双经线调度器选择两个经线，并发出一个从每个 warp 到一组 16 个内核、16 个加载/存储单元或 4 个 SFU 的指令。 "

从这里开始，我认为一个 warp(32 个线程)被调度了两次，因为 32 个内核中的 16 个被组合在一起。每个调度器在一个周期内将一半的 warp 发送到 16 个内核，总而言之，两个调度器在一个周期内将两个 warp-halves 发送到两个 16 核调度组中。换句话说，在这个费米架构中，一个 warp 需要被调度两次，一半一半。如果一个 warp 只包含 SFU 操作，那么这个 warp 需要发出 8 次(32/4)，因为一个 SM 中只有 4 个 SFPU。

B.当启动大量线程(比如一维数组，320 个线程)时，连续的线程将自动分组为 10 个线程束，每个线程束有 32 个线程。因此，如果所有线程都在做相同的工作，它们将执行完全相同的指令。那么在这种情况下，所有 warp 总是携带相同的指令。

问题:Q1。哪一部分处理线程分组(成束)？软件还是硬件？如果是硬件，它是 warp 调度程序吗？以及硬件 warp 调度器是如何实现和工作的？

Q2。如果我有 64 个线程，线程 0-15 和 32-47 正在执行相同的指令，而 16-31 和 48-63 执行另一条指令，调度程序是否足够聪明，可以将不连续的线程(具有相同的指令)分组到同一个 warp 中(即，将线程 0-15 和 32-47 分组到同一个 warp，并将线程 16-31 和 48-63 分组到另一个 warp)？

Q3。 warp 大小 (32) 大于调度组大小(16 核)有什么意义？(这是一个硬件问题)因为在这种情况下(Fermi)，无论如何都会将 warp 调度两次(在两个周期内)。如果一个 warp 是 16 宽，那么会简单地调度两个 warp(也是两个周期)，这似乎和前面的情况一样。我想知道这个组织是否出于性能考虑。

我现在可以想象的是:可以保证同一个 warp 中的线程同步，这有时很有用，或者其他资源(如寄存器和内存)以 warp 大小为基础进行组织。我不确定这是否正确。

最佳答案

纠正一些误解:

A. ...From here, I think a warp(32 threads) is scheduled twice since 16 cores out of 32 are grouped together.

当向一组 16 个核心发出 warp 指令时，整个 warp 都会执行该指令，因为核心被计时两次(Fermi 的“hotclock”)，因此每个核心实际上在一个周期内执行两个线程的计算(= 2 个热点)。调度 warp 指令时，整个 warp 都会得到服务。它不需要被安排两次。

B. ...Therefore, if all threads are doing the same work, they will execute exactly the same instruction. Then all warps are always carrying the same instruction in this case.

的确，一个 block 中的所有线程(以及所有线程束)都从相同的指令流执行，但它们不一定执行相同的指令。当然，warp 中的所有线程在任何给定时间都在执行相同的指令。但是 warp 彼此独立执行，因此 block 内的不同 warp 可能在任何给定时间执行来自流的不同指令。 Fermi whitepaper 第 10 页的图表使这一点显而易见。

Q1: Which part handles the threads grouping (into warps)? software or hardware?

这是由硬件完成的，如 hardware implementation 中所述编程指南的部分:“将 block 划分为 warp 的方式始终相同；每个 warp 包含连续的、增加的线程 ID 的线程，第一个 warp 包含线程 0。Thread Hierarchy 描述了线程 ID 与线程索引的关系 block 。”

and how the hardware warp scheduler is implemented and work?

我认为这在任何地方都没有正式记录。 Greg Smith 对此提供了各种解释，您可能希望搜索“user:124092 scheduler”或类似的搜索，以阅读他的一些评论。

Q2. If I have 64 threads, threads 0-15 and 32-47 are executing the same instruction while 16-31 and 48-63 executes another instruction, is the scheduler smart enough to group nonconsecutive threads( with the same instruction) into the same warp (i.e., to group threads 0-15 and 32-47 into the same warp, and to group threads 16-31 and 48-63 into another warp)?

这个问题是基于前面概述的误解。将线程分组到 warp 中不是动态的；它在 threadblock 启动时是固定的，并且遵循上面对 Q1 的回答中描述的方法。此外，线程 0-15 永远不会与 16-31 以外的任何线程一起调度，因为 0-31 包含一个 warp，它在 Fermi 上对于调度目的是不可分割的。

Q3. What's the point to have a warp size(32) larger than the scheduling group size(16 cores)?

同样，我认为这个问题是基于以前的误解。用于为 warp 提供资源的硬件单元在某些功能级别可能存在 16 个单元(或其他数量)，但从操作级别来看，warp 被安排为 32 个线程，每条指令为整个扭曲安排，并在一定数量的费米热时钟内一起执行。

关于cuda - 硬件 warp 调度程序如何形成和处理 warp？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21535471/

31

4

0

文章推荐： php - 列出一个类别和子类别中的所有维基百科文章

文章推荐： date - 如何在 SPARQL 中转换日期格式？

文章推荐： c# - 从数据表中删除特定行

文章推荐： vim - 如何防止文本宽度在 txt 文件上重置

C 程序我想知道是否有办法简化我的 dayofyear 程序？
我是 C 语言新手，我编写了这个 C 程序，让用户输入一年中的某一天，作为返回，程序将输出月份以及该月的哪一天。该程序运行良好，但我现在想简化该程序。我知道我需要一个循环，但我不知道如何去做。这是程序
java - GUI Java 程序 - Paint 程序
我一直在努力找出我的代码有什么问题。这个想法是创建一个小的画图程序，并有红色、绿色、蓝色和清除按钮。我有我能想到的一切让它工作，但无法弄清楚代码有什么问题。程序打开，然后立即关闭。 import ja
homebrew - 从 Homebrew 程序/欺骗程序到 Homebrew 程序/核心的迁移是什么？
我想安装screen，但是接下来我应该做什么？ $ brew search screen imgur-screenshot screen
python - 客户端(python 程序)没有收到服务器(c 程序)返回的响应？
我有一个在服务器端工作的 UDP 套接字应用程序。为了测试服务器端，我编写了一个简单的 python 客户端程序，它发送消息“hello world how are you”。服务器随后应接收消息，将
python - 运行一个 shell 脚本，该脚本运行一个 python 程序，然后运行一个 R 程序
我有一个 shell 脚本，它运行一个 Python 程序来预处理一些数据，然后运行一个 R 程序来执行一些长时间运行的任务。我正在学习使用 Docker 并且我一直在运行 FROM r-base:l
python - 在 Linux 中从 Python 启动一个 c 程序，将一个大文本字符串作为参数传递给 c 程序
在 Linux 中。我有一个 c 程序，它读取一个 2048 字节的文本文件作为输入。我想从 Python 脚本启动 c 程序。我希望 Python 脚本将文本字符串作为参数传递给 c 程序，而不是将
在网页上调起本机C#程序
前言最近开始整理笔记里的库存草稿，本文是 23 年 5 月创建的了（因为中途转移到 onedrive，可能还不止）网页调起电脑程序是经常用到的场景，比如百度网盘下载，加入 QQ 群之类的我
VHDL 程序
对于一个类，我被要求编写一个 VHDL 程序，该程序接受两个整数输入 A 和 B，并用 A+B 替换 A，用 A-B 替换 B。我编写了以下程序和测试平台。它完成了实现和行为语法检查，但它不会模拟。尽
haskell 程序
module Algorithm where import System.Random import Data.Maybe import Data.List type Atom = String ty
求给定N个数的最小公倍数的C++程序
我想找到两个以上数字的最小公倍数求给定N个数的最小公倍数的C++程序最佳答案 int lcm(int a, int b) { return (a/gcd(a,b))*b; } 对于gcd，请查看
索引器的c#程序
这个程序有错误。谁能解决这个问题？ Error is :TempRecord already defines a member called 'this' with the same paramete
铁路围栏密码的C++程序
当我运行下面的程序时，我在 str1 和 str2 中得到了垃圾值。所以 #include #include #include using namespace std; int main() {
死兔子的C++程序
这是我的作业: 一对刚出生的兔子(一公一母)被放在田里。兔子在一个月大时可以交配，因此在第二个月的月底，每对兔子都会生出两对新兔子，然后死去。注:在第0个月，有0对兔子。第 1 个月，有 1 对兔子
十进制转十六进制的C++程序
我编写了一个程序，通过对字母使用 switch 命令将十进制字符串转换为十六进制，但是如果我使用 char，该程序无法正常工作!没有 switch 我无法处理 9 以上的数字。我希望你能理解我，因为我
连接MySQL的C++程序
我是 C++ 新手(虽然我有一些 C 语言经验)和 MySQL，我正在尝试制作一个从 MySQL 读取数据库的程序，我一直在关注这个 tutorial但当我尝试“构建”解决方案时出现错误。 (我正在使
Swift If 程序
仍然是一个初学者，只是尝试使用 swift 中的一些基本函数。有人能告诉我这段代码有什么问题吗？ import UIKit var guessInt: Int var randomNum = arc
折叠常量的C++程序
我正在用 C++11 编写一个函数，它采用 constant1 + constant2 形式的表达式并将它们折叠起来。 constant1 和 constant2 存储在 std::string 中，
2个矩阵相加和相乘的C++程序
我用 C++ 编写了这段代码，使用运算符重载对 2 个矩阵进行加法和乘法运算。当我执行代码时，它会在第 57 行和第 59 行产生错误，非法结构操作(两行都出现相同的错误)。请解释我的错误。提前致谢:
交换字符串中两个字符的C++程序
我是 C++ 的初学者，我想编写一个简单的程序来交换字符串中的两个字符。例如；我们输入这个字符串:“EXAMPLE”，我们给它交换这两个字符:“E”和“A”，输出应该类似于“AXEMPLA”。我在
确定三角形的C++程序
我需要以下代码的帮助: 声明 3 个 double 类型变量，每个代表三角形的三个边中的一个。提示用户为第一面输入一个值，然后将用户的输入设置为您创建的代表三角形第一条边的变量。将最后 2 个步

首页

博学

6Ren·AI

商城

cuda - 硬件 warp 调度程序如何形成和处理 warp？