- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我希望回答我的问题不需要很多时间,因为这是关于我对这个话题的理解。
因此,问题在于并发内核执行的 block 和网格大小。
首先,让我介绍一下我的显卡:它是 GeForce GTX TITAN,这是它的一些特性,我认为这些特性在这个问题中很重要。
CUDA Capability 主要/次要版本号:3.5
全局内存总量:6144 MBytes(6442123264字节)
(14) 个多处理器,(192) 个 CUDA 核心/MP:2688 个 CUDA 核心
经纱尺寸:32
每个多处理器的最大线程数:2048
每个 block 的最大线程数:1024
现在,主要问题是:我有一个内核(它执行稀疏矩阵乘法,但它并不那么重要)并且我想同时(!)在一个 GPU 上的多个流中启动它,计算不同的矩阵乘法。请再次注意同时要求 - 我希望所有内核在一个时刻开始,并在另一个时刻结束(所有内核!),因此当这些内核仅部分重叠时的解决方案不能满足我。我想要最大化并行内核的数量也很重要,即使我们因此而损失了一些性能。
好吧,让我们考虑一下我们已经有了内核,我们想以最好的方式指定它的网格和 block 大小。
查看卡的特征,我们看到它有 14 个 sm 和 3.5 的能力,允许运行 32 个并发内核。因此,我在这里得出的结论是启动 28 个并发内核(14 个 SM 每个内核两个)将是最好的决定。第一个问题 - 我在这儿吗?
现在,我们再次要优化每个内核的 block 和网格大小。好的,让我们看一下这个特征:
每个多处理器的最大线程数:2048
我是这样理解的:如果我们启动一个有 1024 个线程和 2 个 block 的内核,这两个 block 将同时计算。如果我们启动一个有 1024 个线程和 4 个 block 的内核,那么将依次计算两对 block 。因此,我得出的下一个结论是,启动 28 个内核,每个内核有 1024 个线程也是最好的解决方案——因为这是它们可以在每个 SM 上同时执行的唯一方法。第二个问题——我在这儿吗?或者有更好的解决方案如何获得同时执行?
如果你只说我对不对就太好了,如果你能指出我错误的地方或提出更好的解决方案,我将不胜感激。
感谢您阅读本文!
最佳答案
已经有很多关于并发内核的问题。您可能会搜索并查看其中的一些内容。您必须考虑寄存器使用、 block 、线程和共享内存使用等。当您不提供有关寄存器使用或共享内存使用的信息时,您的问题无法准确回答。最大化并发内核部分是一个占用问题,因此您也应该研究它。
然而,您想要观察最大并发内核数。正如您已经指出的,那是 32。
您有 14 个 SM,每个 SM 最多可以有 2048 个线程。 14x2048/32 = 每个内核 896 个线程(即 block * 每个 block 的线程数)
如果线程 block 大小为 128,则每个内核有 7 个 block 。 7 个 block * 32 个内核 = 总共 224 个 block 。当我们将其除以 14 个 SM 时,我们得到每个 SM 16 个 block ,这恰好与 spec limit 完全匹配。 .
所以上面的分析,32 个内核,每个内核 7 个 block ,每个 block 128 个线程,将是仅考虑您提供的数据后可以完成的分析范围。
如果这对您不起作用,我一定会确保我已经满足了 concurrent execution 的要求。然后关注每个线程或共享内存的寄存器,看看在这种情况下它们是否是“占用”的限制因素。
老实说,我对您亲眼目睹您描述的完美场景不抱太大希望,但要坚持下去。我会很高兴感到惊讶。仅供引用,如果我尝试做这样的事情,我肯定会在 linux 而不是 windows 上尝试,特别是考虑到您的卡是 GeForce 卡,在 windows 下受 WDDM 限制。
您的理解似乎有问题。像这样的语句:
if we launch a kernel with 1024 threads and 2 blocks, these two blocks will be computed simultaneously. if we launch a kernel with 1024 threads and 4 blocks, then two pairs of block will be computed one after another
对我来说没有意义。 block 将以调度程序认为合适的任何顺序计算,但没有规定同时计算两个 block ,而是两个两个地计算四个 block 。
关于CUDA并发执行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26151910/
我正在尝试在多线程环境中实现某种累积逻辑;我想知道没有 lock 和 synchronized 关键字是否有更好/更快的方法来做到这一点?以下是我当前的代码: public class Concurr
我需要帮助构建一个实现信号量的监视器,简单的 C 示例就可以。 这是为了证明可以在任何可以使用信号量的地方使用监视器。 最佳答案 如果您说允许使用互斥锁/condvars,请检查: #include
我已经构建了一些返回部分产品目录的 ajax,并且我正在尝试将 xml 输出到文档中,到目前为止,这是我所拥有的: $("#catalog").append("Item NamePriceDe
很抱歉,如果我的问题之前已经被问过,或者它太明显了,但我真的需要澄清这一点。感谢您的帮助。 在多用户界面中,如果来自不同用户的相同事务同时到达服务器,会发生什么? 我有下一张表: create tab
这可能是一个愚蠢的问题,但是这个程序的输出(它的方式)可以为零吗? public class Test2{ int a = 0; AtomicInteger b = new Atomi
假设我本地主机上的一个网站处理每个请求大约需要 3 秒。这很好,正如预期的那样(因为它在幕后进行了一些奇特的网络)。 但是,如果我在选项卡(在 firefox 中)中打开相同的 url,然后同时重新加
我对 MongoDB 的读锁定有点困惑。单个集合可以支持多少个并发读取操作? 最佳答案 如 tk 给出的链接中所写:http://www.mongodb.org/pages/viewpage.acti
如果有四个并发的 CUDA 应用程序在一个 GPU 中竞争资源会发生什么这样他们就可以将工作卸载到图形卡上了? Cuda Programming Guide 3.1 提到那里 某些方法是异步的: 内核
👊上次的百度面试遇到了关于spark的并发数的问题,今天我们就来将这些问题都一并解决一下,图画的的有点丑,还行大家见谅,百度实习的问题我放在了下面的链接👇: 链接: 2022百度大数据开发工程师实
我对 Groovy 线程有疑问。 我的任务是以某种方式翻译给定目录中的每个文件 并将生成的输出放在其他目录中的文件中。 我编写了以下代码,该代码有效: static def translateDir(
Java中的同步和锁定有什么区别? 最佳答案 synchronized是语言关键字;锁是对象。 当一个方法或代码块被标记为同步时,您是说该方法或代码块必须先获得某个锁对象(可以在同步的语法中指定)才能
我需要创建一个能够同时处理来自客户端的多个请求的并发 RPC 服务器。 使用 rpcgen linux编译器(基于sun RPC),不支持-A为并发服务器创建 stub 的选项。 (-A 选项在 so
System.out.println("Enter the number of what you would like to do"); System.out.println("1 = Manuall
我正在将我的应用程序移植到 iOS 8.0 并注意到 UIAlertView 已被弃用。 所以我改变了使用 UIAlertController 的方法。这在大多数情况下都有效。 除了,当我的应用程序打
我正在逐行同时读取两个文本文件。 我特别想做的是当lineCount在每个线程上都是相同的我想看看扫描仪当前正在读取的字符串。 我环顾四周寻找可以实现的某些模式,例如 Compare and Swap
我正在阅读 Java Concurrency in Practice .在章节中断政策部分 取消和关闭 它提到 A task should not assume anything about the
我正在尝试学习线程,互斥等的基础知识。遵循here的文档和示例。在下面的代码中,我得到预期的输出。问题: 想确认我是否有任何陷阱?我们如何改善下面的代码? 我的线程在哪一行尝试获取互斥锁或正在等待互斥
并发是指两个任务在不同的线程上并行运行。但是,异步方法并行运行,但在同一个线程上。这是如何实现的?另外,并行性怎么样? 这三个概念有什么区别? 最佳答案 并发和并行实际上与您正确推测的原理相同,两者都
以此ConcurrentDouble类定义为例: public class ConcurrentDouble { public double num = 0; public void subt
在得知并发确实增加了许多人的吞吐量后,我一直计划在项目中使用并发。现在我在多线程或并发方面还没有做太多工作,因此决定在实际项目中使用它之前学习并进行简单的概念验证。 以下是我尝试过的两个示例: 1.
我是一名优秀的程序员,十分优秀!