- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我需要一个 upper_bound
的实现如我的 Metal 计算内核的 STL 中所述。 Metal 标准库中没有任何东西,我基本上是从 <algorithm>
复制的像这样进入我的着色器文件:
static device float* upper_bound( device float* first, device float* last, float val)
{
ptrdiff_t count = last - first;
while( count > 0){
device float* it = first;
ptrdiff_t step = count/2;
it += step;
if( !(val < *it)){
first = ++it;
count -= step + 1;
}else count = step;
}
return first;
}
我创建了一个简单的内核来测试它:
kernel void upper_bound_test(
device float* input [[buffer(0)]],
device uint* output [[buffer(1)]]
)
{
device float* where = upper_bound( input, input + 5, 3.1);
output[0] = where - input;
}
对于此测试,它具有硬编码的输入大小和搜索值。我还在框架端硬编码了一个 5 元素输入缓冲区,如下所示。这个内核我期望返回大于3.1的第一个输入的索引
这是行不通的。事实上output[0]
永远不会被写入——因为我用一个魔数(Magic Number)预加载了缓冲区,看看它是否被覆盖了。它没有。事实上在waitUntilCompleted
之后, commandBuffer.error
看起来像这样:
Error Domain = MTLCommandBufferErrorDomain
Code = 1
NSLocalizedDescription = "IOAcceleratorFamily returned error code 3"
错误代码 3 是什么意思?我的内核在有机会完成之前就被杀死了吗?
此外,我只尝试了 upper_bound
的线性搜索版本像这样:
static device float* upper_bound2( device float* first, device float* last, float val)
{
while( first < last && *first <= val)
++first;
return first;
}
这个有效(有点)。我对来自 <algorithm>
的二进制搜索 lower_bound 有同样的问题——然而,一个天真的线性版本是有效的(某种程度上)。顺便说一句,我测试了我从直接 C 代码复制的 STL 版本(明显删除了 device
),它们在着色器领域之外工作正常。请告诉我我做错了什么,这不是 Metal 编译器错误。
现在关于上面的“排序”:线性搜索版本在 5s 和 mini-2 (A7s) 上工作(在上面的示例中返回索引 3),但在 6+ (A8) 上它给出了正确的答案 + 2^31。有没有搞错!完全相同的代码。关于框架方面的注意事项,我使用 uint32_t
在着色器方面,我使用 uint
——这是一回事。另请注意,每个指针减法(ptrdiff_t
是有符号的 8 字节的东西)都是小的非负值。为什么 6+ 设置为高位?当然,为什么我的真实二进制搜索版本不起作用?
这是框架方面的东西:
id<MTLFunction> upperBoundTestKernel = [_library newFunctionWithName: @"upper_bound_test"];
id <MTLComputePipelineState> upperBoundTestPipelineState = [_device
newComputePipelineStateWithFunction: upperBoundTestKernel
error: &err];
float sortedNumbers[] = {1., 2., 3., 4., 5.};
id<MTLBuffer> testInputBuffer = [_device
newBufferWithBytes:(const void *)sortedNumbers
length: sizeof(sortedNumbers)
options: MTLResourceCPUCacheModeDefaultCache];
id<MTLBuffer> testOutputBuffer = [_device
newBufferWithLength: sizeof(uint32_t)
options: MTLResourceCPUCacheModeDefaultCache];
*(uint32_t*)testOutputBuffer.contents = 42;//magic number better get clobbered
id<MTLCommandBuffer> commandBuffer = [_commandQueue commandBuffer];
id<MTLComputeCommandEncoder> commandEncoder = [commandBuffer computeCommandEncoder];
[commandEncoder setComputePipelineState: upperBoundTestPipelineState];
[commandEncoder setBuffer: testInputBuffer offset: 0 atIndex: 0];
[commandEncoder setBuffer: testOutputBuffer offset: 0 atIndex: 1];
[commandEncoder
dispatchThreadgroups: MTLSizeMake( 1, 1, 1)
threadsPerThreadgroup: MTLSizeMake( 1, 1, 1)];
[commandEncoder endEncoding];
[commandBuffer commit];
[commandBuffer waitUntilCompleted];
uint32_t answer = *(uint32_t*)testOutputBuffer.contents;
最佳答案
好吧,我找到了解决方案/解决方法。我猜这是一个指针别名问题,因为 first
和 last
指向同一个缓冲区。所以我将它们更改为单个指针变量的偏移量。这是重写的 upper_bound2:
static uint upper_bound2( device float* input, uint first, uint last, float val)
{
while( first < last && input[first] <= val)
++first;
return first;
}
以及重写的测试内核:
kernel void upper_bound_test(
device float* input [[buffer(0)]],
device uint* output [[buffer(1)]]
)
{
output[0] = upper_bound2( input, 0, 5, 3.1);
}
这完全奏效了。也就是说,它不仅解决了线性搜索的“排序”问题,而且类似重写的二分搜索也起作用了。我不想相信这一点。 Metal 着色器语言应该是 C++ 的子集,但标准指针语义不起作用?我真的不能比较或减去指针吗?
无论如何,我不记得看到任何文档说不能有指针别名或者什么声明咒语可以帮助我。还有其他帮助吗?
[更新]
郑重声明,正如 Apple 开发论坛上的“slime”所指出的: https://developer.apple.com/library/ios/documentation/Metal/Reference/MetalShadingLanguageGuide/func-var-qual/func-var-qual.html#//apple_ref/doc/uid/TP40014364-CH4-SW3
“指定为图形或内核函数参数值的缓冲区(设备和常量)不能使用别名——也就是说,作为参数值传递的缓冲区不能与传递给同一图形或内核函数的单独参数的另一个缓冲区重叠”
但同样值得注意的是 upper_bound() 不是内核函数,并且 upper_bound_test() 没有传递别名参数。 upper_bound_test() 所做的是创建一个本地临时对象,该临时对象指向与其参数之一相同的缓冲区。也许文档应该说出它的意思,比如:“不允许在任何函数中使用指向设备和常量内存的指针别名,包括右值。”我实际上不知道这是否太强了。
关于c++ - 我的 iOS Metal 计算内核是否存在编译器错误,或者我遗漏了什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34585500/
我的问题由两部分组成。 我注意到使用 cc 编译器的 sparc(sun) 上的 memalign(block_size,bytes) 不检查字节是否为 2 的幂,这与使用 mvsc 编译器的 int
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 6 年前。
当我尝试在我的 gwt-maven Projekt 上进行 maven-install 时,我得到了这个错误: [ERROR] Failed to execute goal org.apache.ma
gcc 有一个选项 -s 来生成汇编源代码。 csc(MS C# 编译器)或 dmcs(mono C# 编译器)是否等价?我的意思是那些编译器是否提供了一个选项来生成可以读取而不是执行二进制文件的 I
我在 matlab simulink 中有一个模型。我把matlab安装在D盘了。当我运行模型时,出现以下错误: Unable to locate a C-compiler required by S
我非常喜欢 Visual Studio 2012,因为 GUI 非常快速和灵活。问题是我需要 VS2010 的 VC++-Compiler。在 VS 2012 中设置旧的编译器、SDK 有什么可能吗?
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
我正在为类似 C 的语言开发编译器,但在语义分析和代码生成阶段遇到了一些困难。我的问题如下:1) 对于 if 语句,语法如下: if (expression) then statement1; sta
我想了解 php 编译器/解释器的工作原理。 我试图下载 php 源代码并试图了解它是如何工作的。我找不到合适的文档。如果有人可以阐明制作 php 编译器的模块以及 apache 服务器如何使用 ph
我有一些关于 python 的问题 为什么没有 python 编译器来创建本地代码?我找到了 py2exe 等,但它们只是随附了一个 python 解释器,因此,它又是执行代码的解释器。 是否无法创建
本文将是JVM 性能优化系列的第二篇文章(第一篇:传送门),Java 编译器将是本文讨论的核心内容。 本文中,作者(Eva Andreasson)首先介绍了不同种类的编译器,并对客户端编译,服务器
在 *nix 之类的系统或适当的工具包下是否有任何用于 ActionScript 3 的编译器来处理 Flash? 最佳答案 Flex SDK编译器 — mxmlc — 还将编译普通的 ActionS
我正在做一个C项目。但是其他人告诉我,由于没有C++编译器,所以无法构建它。 我不知道如何禁用C++的检测。这该怎么做? 最佳答案 检测C和C++工具链是CMake的默认行为。要禁用此行为,您需要手动
我正在寻找可以嵌入到我的程序中的 JIT 编译器或小型编译器库。我打算用它来编译动态生成的执行复数运算的代码。生成的代码在结构上非常简单:没有循环,没有条件,但它们可能很长(由 GCC 编译时只有几
多年来,我一直在 VB.NET 中使用 DEBUG 编译器常量将消息写入控制台。我也一直在以类似的方式使用 System.Diagnostics.Debug.Write。我一直认为,当 RELEASE
我了解编译器的前端和后端结构。但是,我不确定为什么编译器经常分为前端和后端。我相信有很多原因,你能给我几个吗?因为,大多数书籍/网站会告诉您它们是什么,但无法告诉您原因! 谢谢你。 最佳答案 前端处理
我有很多 JS 文件。其中一些相互依赖。其中许多依赖于 jQuery。我需要一种工具,它可以接受一个文件作为参数,传递地获取其所有依赖项,并以正确的顺序将它们编译成一个文件(基于依赖项) 依赖信息并不
我正在阅读著名的紫龙书第二版,但无法从第 65 页获取有关创建第一组的示例: 我们有以下语法(终端以粗体显示): stmt → expr; | if ( expr ) stmt | for ( opt
我正在寻找将 C# 语法编译为 native 代码(或者可能编译为 C++?)的选项。我对拥有正式成为该语言一部分的所有库不感兴趣,只是能够像编写 C++ 程序一样编写程序,但使用语言结构,例如部分类
编译器(例如:gcc)中的 -march 标志真的很重要吗? 如果我使用 -march=my_architecture 而不是 -march=i686 编译所有程序和内核,会不会更快 最佳答案 是的,
我是一名优秀的程序员,十分优秀!