- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试为我的应用程序找到线程和 block 的最佳值。因此,我编写了一个小程序来运行线程数、 block 大小和网格大小的可能组合。我正在处理的任务是不可并行化的,因此每个线程都在计算其独特的问题,并且需要对其独特的全局内存块进行读写访问。我还必须增加 cudaLimitStackSize 才能让我的内核运行。当我尝试计算一次可以运行的最大线程数时遇到了问题。我改进的方法(感谢 Robert Crovella)是
threads = (freememory*0.9)/memoryperthread
其中 freememory
是从 cudaMemGetInfo
获取的,memoryperthread
是一个线程的全局内存需求。即使我减少常数因子,我仍然遇到“未指定的启动失败”,我无法调试,因为调试器失败并显示 错误:CUDA 调试器 API 报告的内部错误(错误 = 1)。无法进一步调试应用程序。
。根据设置此错误当我尝试不同的 block 大小时,我也遇到了问题。任何大于 512 个线程的 block 大小都会产生“启动时请求的资源过多”。正如 Robert Crovella 所指出的,这可能是我的内核占用了很多寄存器(63,如 -Xptxas="-v"所报告的)的问题。由于 block 可以分布在多个 multiProcessorCount 上,我肯定找不到任何会突然达到 1024 block 大小的限制。
我的代码对于线程和 block 的小值运行良好,但我似乎无法计算我可以同时运行的最大数量。有什么方法可以正确计算这些值,还是我需要根据经验来计算?
我知道内存繁重的任务不是 CUDA 的最佳选择。我的设备是具有 Compute Capability 2.0 的 GTX480。现在我坚持使用 CUDA Driver Version = 6.5, CUDA Runtime Version = 5.0
。我确实使用 -gencode arch=compute_20,code=sm_20
进行编译以增强计算能力。
更新:将运行时更新到 6.5 后,上述大部分问题都消失了。我将按原样保留这篇文章,因为我提到了我遇到的错误,人们可能会在搜索他们的错误时偶然发现它。为了解决大块大小的问题,我不得不减少每个线程的寄存器数 (-maxrregcount)。
最佳答案
threads = totalmemory/memoryperthread
如果您对 memoryperthread
的计算是准确的,这将不起作用,因为 totalmemory
通常不是全部可用。由于 CUDA 运行时开销、分配粒度和其他因素,您实际可以分配的数量少于此数量。所以这会以某种方式失败,但由于您没有提供任何代码,因此无法准确说明如何失败。如果您正在从主机进行所有这些分配,例如通过 cudaMalloc
,那么我预计会出现错误,而不是内核未指定的启动失败。但是,如果您在内核中执行 malloc
或 new
,那么您可能正在尝试使用返回的空指针(表示分配失败 - 即内存不足),这可能会导致未指定的启动失败。
having a blocksize larger than 512 threads yields "too many resources requested for launch".
这可能是因为您没有为 cc2.0 设备进行编译,或者您的内核每个线程使用的寄存器多于可支持的寄存器。无论如何,这肯定是一个可以解决的问题。
So how would one properly calculate the maximum possible threads and blocks for a kernel?
通常,全局内存需求是问题的函数,而不是内核大小。如果您的全局内存需求随着内核大小的增加而增加,那么可能有一些比率可以根据 cudaMemGetInfo
报告的“可用内存”来确定(例如 90%),它应该提供合理的安全操作。但总的来说,如果一个程序能够容忍分配失败,那么它就是设计良好的,你至少应该在主机代码和设备代码上明确检查这些,而不是依赖于“未指定的启动失败”来告诉你某些东西已经消失了错误的。这可能是由内存使用引发的任何类型的副作用错误,并且可能不是直接由于分配失败。
我建议追踪这些问题。调试问题,找到问题的根源。我认为正确的解决方案随后就会出现。
关于c - 如何确定内存密集型 CUDA 应用程序的最大可能线程和 block ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26362704/
我的 blockly.js 文件中有以下代码 Blockly.Blocks['account_number'] = { // Other type. init: function() {
首先抱歉我的英语不好,我正在开发 Image Splitter 应用程序并且已经完成,但是现在的要求是当图像被分割(分成几 block /chunks)那么图像 block 的每一 block (ch
#value: 消息的返回值,当发送到一个 block 时,是该 block 中最后一句话的值。所以 [ 1 + 2. 3 + 4. ] value 计算结果为 7。我发现有时很难使用。有没有办法显式
我想构建一个包含 3 div 的响应式导航栏相同的 width和 height . 我申请了 inline-block到每个 block ,我得到一个我不理解的行为。 问题是,第三 block 由 2
我希望使用 Blockly 来允许非技术人员用户指定测试脚本。 它的一部分需要一个文件选择器,但是,我看不到 Blockly 有一个。是吗? 实际上,我找不到完整的标准 block 列表。谁有网址?
仅当您位于父 block 内部时,父 block 的 props.isSelected 才为 true,但当您在该 block 的 innerBlocks 内进行编辑时则不然。 如何从父 block
仅当您位于父 block 内部时,父 block 的 props.isSelected 才为 true,但当您在该 block 的 innerBlocks 内进行编辑时则不然。 如何从父 block
我想创建一个具有不同背景颜色 block 和不同悬停颜色 block 的导航栏 block 。我可以分别创建不同的悬停颜色 block 或不同的背景颜色 block ,但不能一起创建。所以请告诉我如何
我正在使用看到的代码 here定期执行代码: #define DELAY_IN_MS 1000 __block dispatch_time_t next = dispatch_time(DISPATC
为什么 block 必须被复制而不是保留?两者在引擎盖下有什么区别?在什么情况下不需要复制 block (如果有)? 最佳答案 通常,当您分配一个类的实例时,它会进入堆并一直存在,直到它被释放。但是,
我想弄清楚我这样做是否正确: 如果我有一个 block ,我会这样做: __weak MyClass *weakSelf = self; [self performBlock:^{
我想制作一个 4 block 导航菜单,虽然我已经显示了一个 block ,然后单击打开第二个 block ,从第二个开始选择并再次单击出现第三个 block ,第四个 block 相同...这是我的
例如,这样更好吗? try { synchronized (bean) { // Write something } } catch (Int
我想让一只乌龟检查前方小块的颜色并决定移动到哪里。如果前面的补丁不是白色的,那么乌龟向左或向右旋转并移动。我的 If 决策结构中出现错误,显示“此处应为 TRUE?FALSE,而不是 block 列表
我想创建一个 block 对角矩阵,其中对角 block 重复一定次数,非对角 block 都是零矩阵。例如,假设我们从一个矩阵开始: > diag.matrix [,1] [,2] [
我是区 block 链新手。突然我有一个问题,我们是否可以通过区 block 号来访问以太坊区 block 链上之前的区 block 数据。 例如我创建了一个block1、block2。 block
我是区 block 链新手。突然我有一个问题,我们是否可以通过区 block 号来访问以太坊区 block 链上之前的区 block 数据。 例如我创建了一个block1、block2。 block
我创建了一个等距环境,全部使用 Javascript 和 HTML5 (2D Canvas),大部分情况下工作正常。我面临的问题是使用不同高度的图 block ,然后对图 block 上的对象索引进行
这是令我困惑的代码: public Integer getInteger(BlockingQueue queue) { boolean interrupted = false; try
我有一个基于 TPL 数据流的应用程序,它仅使用批处理 block 和操作 block 就可以正常工作。 我已经添加了一个 TransformBlock 以尝试在发布到批处理 block 之前从源中转
我是一名优秀的程序员,十分优秀!