cuda - CUDA block 和经线-6ren

cuda - CUDA block 和经线

转载作者：行者123 更新时间：2023-12-03 12:55:08

31

4

好的，我知道一遍又一遍地询问了相关问题，并且我读到了关于此问题的几乎所有内容，但是事情仍然不清楚。可能也是因为我发现并阅读了彼此矛盾的东西(也许是因为它们来自不同的时代，它们指的是具有不同计算能力的设备，两者之间似乎有很大的差距)。我希望提高效率，以减少执行时间，因此我需要确切知道一次可以并行运行多少个线程/线程/块。我也在考虑将其推广，并仅根据我知道必须执行的操作数(对于更简单的程序)和系统规格来计算要传递给内核的最佳线程和块数。

我有一个GTX 550Ti，btw具有2.1的计算能力。
4个SM x 48个内核= 192个CUDA内核

好的，所以我不清楚的是:

一个多处理器(SM)上可以在AT ONCE(并行)上运行多个块吗？我读到最多可以为一个SM分配8个块，但是关于它们的运行方式却一无所获。从我每个SM的最大线程数(1536)刚好大于我每个块的最大线程数(1024)的事实，我认为这些块不是并行运行的(可能是1个半？)。或者至少没有，如果我有最大数量的线程。另外，如果我将块数设置为4(我的SM数)，是否会将它们分别发送到其他SM？
还是我无法真正控制所有这些如何在硬件上分配，然后这才是争论的焦点，我的执行时间将根据设备的异想天开而有所不同...

其次，我知道一个块会将其线程分为并行运行的32个线程组(称为扭曲)。现在，这些扭曲(假设它们彼此之间没有关系)也可以并行运行吗？因为在Fermi架构中它指出同时执行2个warp，因此从每个warp向一组16(？)内核发送一条指令，而在其他地方我读到每个内核都处理warp，这可以解释1536个最大线程( 32 * 48)，但似乎有点多。 1个CUDA核心可以同时处理32个线程吗？

简而言之，我要问的是:(例如)如果我要在第三个 vector 中求和两个 vector ，我应该给它们两个长度(操作的nr个)，以及如何将它们分成块和线程我的设备以最大容量同时(并行)工作(没有空闲的核心或SM)。

很抱歉，如果以前有人问过我，但我没有或没有看到它。希望您能够帮助我。谢谢!

最佳答案

工作的分配和并行执行由启动配置和设备确定。启动配置指出网格尺寸，块尺寸，每个线程的寄存器以及每个块的共享内存。根据此信息和设备，您可以确定可以在设备上同时执行的块和扭曲的数量。在开发内核时，通常会查看SM上可以激活的扭曲与设备中每个SM的最大扭曲数之比。这称为理论占用率。 CUDA Occupancy Calculator可用于调查不同的启动配置。

启动网格时，计算工作分配器将栅格化网格并将线程块分配给SM，并将为线程块分配SM资源。如果SM具有足够的资源，则可以在SM上同时执行多个线程块。

为了启动warp，SM将warp分配给warp调度器，并为warp分配寄存器。在这一点上，经线被认为是 Activity 经线。

每个扭曲调度程序管理一组扭曲(在Fermi上为24，在Kepler上为16)。没有停滞的经纱称为合格经纱。在每个周期中，warp调度程序都会选择一个合格的warp，并将该warp的指令发布给执行单元，例如int / fp单元， double 浮点单元，特殊功能单元，分支解析单元和负载存储单元。执行单元是流水线式的，允许许多扭曲在每个周期中有1条或更多条飞行中的指令。 Warp可能因指令获取，数据依赖项，执行依赖项，障碍等而停滞。

每个内核都有不同的最佳启动配置。 Nsight Visual Studio Edition和NVIDIA Visual Profiler等工具可以帮助您调整启动配置。我建议您尝试以灵活的方式编写代码，以便尝试多种启动配置。我将从使用至少为您提供50％占用率的配置开始，然后尝试增加和减少占用率。

每个问题的答案

问:可以在多处理器(SM)上以并行方式在AT ONCE上运行多个块吗？

是的，最大数量取决于设备的计算能力。 See Tabe 10. Technical Specifications per Compute Capability : Maximum number of residents blocks per multiprocessor确定值。通常，启动配置会限制运行时间值。有关更多详细信息，请参见占用计算器或NVIDIA分析工具之一。

问:从我每个SM的最大线程数(1536)刚好大于我每个块的最大线程数(1024)的事实来看，我认为这些块不是并行运行的(可能是1个半？)。

启动配置确定每个SM的块数。设置每个块的最大线程数与每个SM的最大线程数之比，以使开发人员在分区方式上更具灵活性。

问:如果我将块数设置为4(我的SM数)，是否会将它们分别发送到其他SM？还是我无法真正控制所有这些如何在硬件上分配，然后这才是争论的焦点，我的执行时间将根据设备的异想天开而有所不同...

您对工作分配的控制有限。您可以通过分配更多的共享内存来限制占用量，从而人为地进行控制，但这是高级优化。

问:其次，我知道一个块会将其线程分为并行运行的32个线程组，称为扭曲。现在，这些扭曲(假设它们彼此之间没有关系)也可以并行运行吗？

是的，经纱可以并行运行。

问:因为在Fermi架构中，它指出同时执行2个扭曲

每个Fermi SM具有2个经纱调度程序。每个warp调度程序可以在每个周期内调度1个warp的指令。指令执行是流水线的，因此每个循环中许多warp可以有1条或更多条指令在运行中。

问:从每个扭曲向一组16(？)内核发送一条指令，而在其他地方，我读到每个内核都处理扭曲，这可以解释1536个最大线程(32x48)，但看起来有些过多。 1个CUDA核心可以同时处理32个线程吗？

是。 CUDA核心是整数和浮点执行单元的数量。 SM还有我上面列出的其他类型的执行单元。 GTX550是CC 2.1设备。在每个周期中，SM可能每个周期最多分配4条指令(128个线程)。根据执行的定义，每个周期中运行的线程总数可能在数百到数千之间。

关于cuda - CUDA block 和经线，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15527133/

31

4

0

文章推荐： .net - 类库中的 WebBrowser 控件

文章推荐： powershell - 在 PowerShell 单行中舍入一个数字

文章推荐： r - 列表的内部实现是什么？

blockly - 在 blockly block 中读取用户输入的输入
我的 blockly.js 文件中有以下代码 Blockly.Blocks['account_number'] = { // Other type. init: function() {
Android将图像分成几 block 并获得等效大小的图像 block ( block )
首先抱歉我的英语不好，我正在开发 Image Splitter 应用程序并且已经完成，但是现在的要求是当图像被分割(分成几 block /chunks)那么图像 block 的每一 block (ch
block - smalltalk block - 我可以显式设置返回值并停止执行 block 吗？
#value: 消息的返回值，当发送到一个 block 时，是该 block 中最后一句话的值。所以 [ 1 + 2. 3 + 4. ] value 计算结果为 7。我发现有时很难使用。有没有办法显式
css - 当一个 block 高于其他 block 时，内联 block 对 block 应用顶部效果
我想构建一个包含 3 div 的响应式导航栏相同的 width和 height . 我申请了 inline-block到每个 block ，我得到一个我不理解的行为。问题是，第三 block 由 2
blockly - Blockly 有文件选择器吗？
我希望使用 Blockly 来允许非技术人员用户指定测试脚本。它的一部分需要一个文件选择器，但是，我看不到 Blockly 有一个。是吗？实际上，我找不到完整的标准 block 列表。谁有网址？
reactjs - 有没有办法在父 block 中知道您正在编辑该父 block 的内部 block ？
仅当您位于父 block 内部时，父 block 的 props.isSelected 才为 true，但当您在该 block 的 innerBlocks 内进行编辑时则不然。如何从父 block
reactjs - 有没有办法在父 block 中知道您正在编辑该父 block 的内部 block ？
仅当您位于父 block 内部时，父 block 的 props.isSelected 才为 true，但当您在该 block 的 innerBlocks 内进行编辑时则不然。如何从父 block
html - 我想创建一个具有不同背景颜色 block 和不同悬停颜色 block 的导航栏 block
我想创建一个具有不同背景颜色 block 和不同悬停颜色 block 的导航栏 block 。我可以分别创建不同的悬停颜色 block 或不同的背景颜色 block ，但不能一起创建。所以请告诉我如何
ios - block 指针变量 'block' 在被 block 捕获时未初始化
我正在使用看到的代码 here定期执行代码: #define DELAY_IN_MS 1000 __block dispatch_time_t next = dispatch_time(DISPATC
ios - 为什么必须复制 block 而不是保留 block ？什么时候不需要复制 block ？
为什么 block 必须被复制而不是保留？两者在引擎盖下有什么区别？在什么情况下不需要复制 block (如果有)？最佳答案通常，当您分配一个类的实例时，它会进入堆并一直存在，直到它被释放。但是，
ios - block block block ，用 __weak self
我想弄清楚我这样做是否正确: 如果我有一个 block ，我会这样做: __weak MyClass *weakSelf = self; [self performBlock:^{
javascript - 当单击部分中的每个 block 时，显示一个 block ，同时使用 jquery 隐藏其他 block 出现第二个 block ，第三个和第四个
我想制作一个 4 block 导航菜单，虽然我已经显示了一个 block ，然后单击打开第二个 block ，从第二个开始选择并再次单击出现第三个 block ，第四个 block 相同...这是我的
java - 最好在 try block 内有一个同步块(synchronized block)，还是在同步块(synchronized block)内有一个 try block ？
例如，这样更好吗？ try { synchronized (bean) { // Write something } } catch (Int
simulation - 尝试检查前方色 block 并根据前方色 block 的色 block 颜色做出决定
我想让一只乌龟检查前方小块的颜色并决定移动到哪里。如果前面的补丁不是白色的，那么乌龟向左或向右旋转并移动。我的 If 决策结构中出现错误，显示“此处应为 TRUE？FALSE，而不是 block 列表
在 block 矩阵的对角部分重复 block 矩阵多次，非对角 block 全部为零矩阵？
我想创建一个 block 对角矩阵，其中对角 block 重复一定次数，非对角 block 都是零矩阵。例如，假设我们从一个矩阵开始: > diag.matrix [,1] [,2] [
blockchain - 如何通过区 block 号访问以太坊区 block 链上一个区 block 的数据？
我是区 block 链新手。突然我有一个问题，我们是否可以通过区 block 号来访问以太坊区 block 链上之前的区 block 数据。例如我创建了一个block1、block2。 block
blockchain - 如何通过区 block 号访问以太坊区 block 链上一个区 block 的数据？
我是区 block 链新手。突然我有一个问题，我们是否可以通过区 block 号来访问以太坊区 block 链上之前的区 block 数据。例如我创建了一个block1、block2。 block
game-engine - 如何在不与其他图 block 重叠的情况下将等距对象从一个图 block 过渡到另一个图 block
我创建了一个等距环境，全部使用 Javascript 和 HTML5 (2D Canvas)，大部分情况下工作正常。我面临的问题是使用不同高度的图 block ，然后对图 block 上的对象索引进行
java - 如果try block 中有 "Where (true)" block ，是否会到达finally block ？
这是令我困惑的代码: public Integer getInteger(BlockingQueue queue) { boolean interrupted = false; try
c# - TPL 数据流转换 block 发布到批处理 block ，然后是操作 block
我有一个基于 TPL 数据流的应用程序，它仅使用批处理 block 和操作 block 就可以正常工作。我已经添加了一个 TransformBlock 以尝试在发布到批处理 block 之前从源中转

首页

博学

6Ren·AI

商城

cuda - CUDA block 和经线