memory - CL_OUT_OF_RESOURCES 用于 1GB VRAM 的 200 万个 float ？-6ren

memory - CL_OUT_OF_RESOURCES 用于 1GB VRAM 的 200 万个 float ？

转载作者：行者123 更新时间：2023-12-04 16:32:48

25

4

看起来 200 万个浮点数应该没什么大不了的，只有 8MB 的 1GB GPU RAM。我有时可以分配那么多，有时甚至更多，没有任何问题。当我执行 clEnqueueReadBuffer 时，我得到 CL_OUT_OF_RESOURCES，这看起来很奇怪。我能找出问题真正开始的地方吗？ OpenCL 不应该在 clEnqueueReadBuffer 上像这样失败，对吗？应该是我分配数据的时候吧？除了错误代码之外，还有什么方法可以获得更多详细信息？如果我能看到 OpenCL 声明 CL_OUT_OF_RESOURCES 时分配了多少 VRAM，那就太酷了。

最佳答案

我刚刚遇到了和你一样的问题(花了我一整天的时间来解决)。
我相信有同样问题的人会偶然发现这一点，这就是我发布这个老问题的原因。

您可能没有检查内核的最大工作组大小。

这是你如何做到的:

size_t kernel_work_group_size;
clGetKernelWorkGroupInfo(kernel, device, CL_KERNEL_WORK_GROUP_SIZE, sizeof(size_t), &kernel_work_group_size, NULL);

我的设备(2 个 NVIDIA GTX 460 和 Intel i7 CPU)支持的最大工作组大小为 1024，但是当我通过路径跟踪内核时，上面的代码返回大约 500。
当我使用 1024 的工作组大小时，它显然失败并给了我 CL_OUT_OF_RESOURCES 错误。

你的内核变得越复杂，它的最大工作组大小就会变得越小(或者至少我经历过)。

编辑:
我刚刚意识到你说的是“clEnqueueReadBuffer”而不是“clEnqueueNDRangeKernel”......
我的回答与 clEnqueueNDRangeKernel 有关。
抱歉我的错误。
我希望这对其他人仍然有用。

关于memory - CL_OUT_OF_RESOURCES 用于 1GB VRAM 的 200 万个 float ？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3988645/

25

4

0

文章推荐： latex - LaTeX:LSTListing自动识别代码通过

文章推荐： django - 如何在 Django 中通过 "filter" "exists"？

文章推荐： sql - 在发送到服务器之前散列密码

文章推荐： magento - 如何将 ezComponents 与 magento 集成

c++ - 为什么将内存从 VRAM 复制到 RAM 比从 RAM 复制到 VRAM 慢？ (OpenGL)
我正在创建类似于 CUDA 的东西，但我看到将内存从 RAM 复制到 VRAM 非常快，就像从 RAM 复制到自身一样。但是从 VRAM 复制到 RAM 比从 RAM 复制到 VRAM 慢。顺便说一
memory - 当 VRAM 已满时会发生什么？
我想知道当前 nvidia/AMD 处理 VRAM 资源分配的实现。我们已经知道，当系统 RAM 已满时，操作系统会使用交换/虚拟内存，那么对于 VRAM 来说，交换相当于什么？它们会回退到系统 R
c - 如何从 VRAM 获取视频输出或帧
我想使用 SDL/OpenGl/DirectX 或任何其他 API 直接从 VRAM 获取将在屏幕上显示的帧(图像)(如果可能)以二进制(RAW)格式。我想最大限度地减少捕获屏幕的延迟，然后将其保存
java - 当程序意外退出时 VRAM 会发生什么
假设我加载了一个或两个纹理，可能还有一些着色器、一个 VAO、一个 VBO，然后我运行该程序。假设程序遇到某种运行时错误并在所有这些缓冲区对象和纹理被删除之前终止。在我重新启动计算机之前，它们是否
c++ - Directx 获取游戏使用的 VRAM
我正在尝试获取我的游戏当前使用的 VRAM 总量。我想在我的调试信息中显示它。当我使用 Visual Studio Graphics Analyzer 时，我想到了一个主意。我想我可以通过添加每个图
c++ - clEnqueueWriteBuffer 将错误数据写入 VRAM
我对 clEnqueueWriteBuffer 有一个很好奇的问题。在我当前的项目中，我想将大约 500 张图像 (1GB) 复制到显卡上并平均一些像素。图像存储在一个大的 double* 数组中(大
macos - OS X 上的免费 VRam
有谁知道如何在 os x 上获得免费的(!)vram？我知道您可以查询注册表项: typeCode = IORegistryEntrySearchCFProperty(dspPort,kIOServ
opengl - 我在 VRAM 上存储的数据多于实际大小。这怎么可能？
我正在分析我的简单体素化世界渲染器的性能。我想找出不同技术的性能限制，一种压力测试。在某些时候，我发现了一些非常奇怪的东西。我正在为每个 block 使用不同的 VBO 以 block 的形式分配几何
c++ - opengl 驱动程序如何在有限的 VRAM 中处理大型纹理阵列
我的游戏引擎尝试分配大型纹理数组，以便能够将大部分(如果不是全部)绘制在一起。该数组可能变得足够大而无法分配，此时我会(不断)将纹理数组分成两半。在收到 glGetError:Out of memo
java - 为 Javafx 程序分配更多 VRAM
我正在开发 JavaFX 程序并希望加快我的应用程序。阅读有关大图像和与之相关的问题后here ，我决定听从那里的建议并分配更多 VRAM。我不太确定如何执行此操作，但是，尽管我知道如何执行此操作，但
c++ - cudaMemGetInfo 使用 vram 并返回错误值
我正在使用 cudaMemGetInfo 来获取系统当前使用的 vram。 extern __host__ cudaError_t CUDARTAPI cudaMemGetInfo(size_t *f
python - 如何将大于 VRAM 大小的数据传递到 GPU 中？
我试图将比 VRAM 更多的数据传递到 GPU，这会导致以下错误。 CudaAPIError:调用 cuMemAlloc 导致 CUDA_ERROR_OUT_OF_MEMORY 我创建了此代码来重现问
python - 如何将大于 VRAM 大小的数据传递到 GPU 中？
我试图将比 VRAM 更多的数据传递到 GPU，这会导致以下错误。 CudaAPIError:调用 cuMemAlloc 导致 CUDA_ERROR_OUT_OF_MEMORY 我创建了此代码来重现问
c - 确定 Windows 上的 VRAM 大小
我需要大致确定系统显卡有多少 VRAM。我知道我不应该这么做的所有原因，但我还是这么做了。它不需要是完美的(有些牌是谎言等)，但我需要一个大概。在 Mac 上，通过核心显卡和 IOKit 可以很容易地
c++ - GameBoy 经典模拟器 - 如何初始化 VRAM (0x8000)
我目前正在编写 GameBoy Classis 模拟器。这是 GitHub 存储库 ( https://github.com/FelixWeichselgartner/GameBoy-Classic-
android - 如何测量 Android 上的 VRAM 消耗？
我想获取‖Android 设备 VRAM 大小。有没有从程序中获取的方法？最佳答案让我们使用 Nexus One 进行一些计算: 屏幕分辨率为 480x800。因此所需的最小视频内存大小为: 4
python - TensorFlow:如何记录 GPU 内存(VRAM)利用率？
TensorFlow 总是(预)分配我显卡上的所有空闲内存 (VRAM)，这没关系，因为我希望我的模拟在我的工作站上尽可能快地运行。但是，我想记录 TensorFlow 实际使用了多少内存(总计)。
c - 在 GBA tile 模式下将单字节写入 VRAM 的意外结果，值也写入下一个或前一个字节
我正在尝试使用 GBA 拼贴模式从头开始显示具有单一彩色像素的单个拼贴。它主要工作，但不是设置单个像素，而是在我打算写入的 16 位对齐位置为两个字节设置相同的颜色: 通过 mgba 模拟器运行时的
debugging - 添加删除 THREE.Geometry 到场景时 Three.JS VRAM 内存泄漏
我在我的应用程序中遇到了 VRAM 内存泄漏。该应用程序经常添加和删除 THREE.Geometry 以创建体积动画。如果我使用 THREE.SphereBufferGeometry 而不是具有自己填
memory - CL_OUT_OF_RESOURCES 用于 1GB VRAM 的 200 万个 float ？
看起来 200 万个浮点数应该没什么大不了的，只有 8MB 的 1GB GPU RAM。我有时可以分配那么多，有时甚至更多，没有任何问题。当我执行 clEnqueueReadBuffer 时，我得到

首页

博学

6Ren·AI

商城

memory - CL_OUT_OF_RESOURCES 用于 1GB VRAM 的 200 万个 float ？