- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试在资源较少的嵌入式 GPU 上运行一些为桌面显卡编写的 OpenCL 内核。特别是,桌面版本假定始终支持至少 256 个工作组大小,但基于 Mali T628 ARM 的 GPU 仅保证 64 个以上的工作组大小。
确实,一些内核报告 CL_KERNEL_WORK_GROUP_SIZE
只有 64,我不明白为什么。我检查了 CL_KERNEL_LOCAL_MEM_SIZE
中有问题的内核,它是 <2 KiB,而 CL_DEVICE_LOCAL_MEM_SIZE
是 32 KiB,所以我想我可以排除 __local
存储。
还有哪些其他因素(例如,寄存器/__private
内存?)导致 CL_KERNEL_WORK_GROUP_SIZE
较低,我如何检查使用情况?我对编程自省(introspection)(例如我已经做过一些的 clGetKernelWorkGroupInfo()
)和任何我可能不知道的开发工具持开放态度。
编辑:
内核是 OpenCV 的 OpenCL v2.4 模块的一部分。特别是 surf.cl
中的内核 icvCalcOrientation
.代码相当复杂,并且设置了多个编译时参数,因此在没有提示要查看的内容的情况下手动分析内核的问题有点不可行。
如果有办法在 NVidia 或 AMD 硬件(我有权访问)上解决此问题,我愿意接受。
最佳答案
由于我之前的回答显然是错误的,因此我需要有关该问题的更多信息。
通过说“某些内核报告 CL_KERNEL_WORK_GROUP_SIZE 仅为 64”,您是在暗示内核存在于更大的工作组大小可用的地方。是这样吗?如果不是,那么不幸的是,该设备根本无法支持超过 64 个工作项。
在设置所有内核参数后和执行内核之前,您能否从内核中的设备查询所有可用信息。查询的参数(大部分取自(Source))是
一般信息:
可以限制工作组的大小,因为本地内存是有限的。如果你有一个使用大量私有(private)内存的内核(“很多”是一个相对的术语——在较弱的硬件上,即使看似很少的变量也可能达到这个限制)。 “然而,这个限制只是在理想条件下。如果您的内核在每个工作组中使用大量 WI,可能一些私有(private) WI 数据会溢出到本地内存。[...]”(Source)。
所以一些私有(private)内存可能会在您没有意识到的情况下交换到本地内存,因此使用的本地内存的累积大小和交换私有(private)内存所需的内存大于可用的本地内存大小。
CL_DEVICE_LOCAL_MEM_SIZE
返回本地内存的可用大小,CL_KERNEL_LOCAL_MEM_SIZE
告诉您已经使用了多少本地内存。显然,这也通过查看 clSetKernelArg 考虑了动态本地内存,但是我不确定如果您在设置内核参数之前查询 CL_KERNEL_LOCAL_MEM_SIZE
(这是您想要在为了确定本地内存的大小......)
无论如何,OpenCL 确切地知道您使用了多少本地内存,因此它可以计算它可以支持多少工作项(每个工作项都有可能需要交换到本地内存的私有(private)内存)。您在查询 CL_KERNEL_WORK_GROUP_SIZE
时可能会得到这种减少的本地工作大小。
查看您发布的内核后,我不认为本地内存是这里的问题(这是您已经怀疑的),特别是因为您只使用了 32 KiB 本地内存中的 2 个。
关于opencl - 确定 OpenCL 工作组大小的限制因素?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27074906/
这个问题在这里已经有了答案: C sizeof a passed array [duplicate] (7 个回答) 8年前关闭。 在一个函数中,我声明了一个数组: int char_count_ar
简而言之,文件系统如何与 block 设备通信? 最佳答案 我对 block 大小不太了解。我认为 ext4(Linux)的文件系统的 block 大小是 4KB,考虑到现代处理器的页面大小(4KB)
我知道 tinyint(1) 和 tinyint(2) 具有相同的存储空间范围。 唯一的区别是显示宽度不同。这是否意味着 tinyint(1) 将存储所有类型的整数但只正确显示 0 到 9 的范围?而
今晚我已经研究了以下代码几个小时,但我只是摸不着头脑。 当使用函数从标准输入填充数组时,我不断收到“大小 8 的无效写入”和“大小 8 的无效读取”。 如有任何帮助,我们将不胜感激...我知道 Sta
我有一个 valgrind 错误,我不知道如何摆脱它们: ==5685== Invalid read of size 8 ==5685== at 0x4008A1: main (in /home
我对 Hadoop 的概念有点困惑。 Hadoop block 大小、拆分大小和 block 大小 之间有什么区别? 提前致谢。 最佳答案 block 大小和 block 大小相同。 拆分大小 可能与
我想不出一个好的标题,所以希望可以。 我正在做的是创建一个离线 HTML5 webapp。 “出于某些原因”我不希望将某些文件放在缓存 list 中,而是希望将内容放在 localStorage 中。
无法将 xamarin apk 大小减少到 80 MB 以下,已执行以下操作: 启用混淆器 配置:发布 平台:事件(任何 CPU)。 启用 Multi-Dex:true 启用开发人员检测(调试和分析)
我正在开发一个程序,需要将大量 csv 文件(数千个)加载到数组中。 csv 文件的尺寸为 45x100,我想创建一个尺寸为 nx45x100 的 3-d 数组。目前,我使用 pd.read_csv(
Hello World 示例的 React Native APK 大小约为 20M (in recent versions),因为支持不同的硬件架构(ARMv7、ARMv8、X86 等),而同一应用程
我有一个包含 n 个十进制元素的列表,其中每个元素都是两个字节长。 可以说: x = [9000 , 5000 , 2000 , 400] 这个想法是将每个元素拆分为 MSB 和 LSB 并将其存储在
如何设置 GtKTextView 的大小?我想我不能使用 gtk_widget_set_usize。 最佳答案 您不能直接控制小部件的大小,而是由其容器完成。您可以使用 gtk_widget_set_
这个问题在这里已经有了答案: c++ sizeof() of a class with functions (7 个答案) 关闭 5 年前。 结果是 12。 foobar 函数存储在内存中的什么位置
当我在 ffmpeg(或任何其他程序)中使用这样的命令时: ffmpeg -i input.mp4 image%d.jpg 所有图像的组合文件大小总是比视频本身大。我尝试减少每秒帧数、降低压缩设置、模
我是 clojurescript 的新手。 高级编译后出现“77 KB”的javascript文件是否正常? 我有一个 clojurescript 文件: 我正在使用 leinigen: lein c
我想要一个 QPixmap尺寸为 50 x 50。 我试过 : QPixmap watermark(QSize(50,50)); watermark.load(":/icoMenu/preparati
我正在尝试从一篇研究论文中重新创建一个 cnn,但我对深度学习还是个新手。 我得到了一个大小为 32x32x7 的 3d 补丁。我首先想执行一个大小为 3x3 的卷积,具有 32 个特征和步幅为 2。
我一直在尝试调整 View Controller 内的 View 大小,但到目前为止没有运气。基本上,我的 View 最底部有一个按钮,当方向从纵向更改为横向时,该按钮不再可见,因为它现在太靠下了。
如何使用此功能检查图像的尺寸?我只是想在上传之前检查一下... $("#LINK_UPLOAD_PHOTO").submit(function () { var form = $(this);
我用 C++ 完成了这个,因为你可以通过引用传递参数。我无法弄清楚如何在 JavaScript 中执行此操作。我的代码需要更改什么?我的输出是1 this.sizeOfBst = function()
我是一名优秀的程序员,十分优秀!