- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我还没有在这里使用过像这样更复杂的 CB,但据我了解,我的 C++ 对齐和打包必须符合 HLSL 的预期。所以我正在尝试 figure out the rules所以我可以预测地布置 C++ struct
以匹配 HLSL
的预期。
我在 Vertex Shader v5
中进行了一些测试,以查看输出中产生的打包,并在 vs.hlsl
中使用了此结构:
cbuffer conbuf {
float m0;
float m1;
float4 m2;
bool m3[1];
bool m4[4];
float4 m5;
float m6;
float4 m7;
matrix m8;
float m9;
float m10;
float4 m11[2];
float m12[8];
float m13;
};
产生了以下输出(在 Header File Name
VC++ Project HLSL Settings 中):
cbuffer conbuf {
float m0; // Offset: 0 Size: 4
float m1; // Offset: 4 Size: 4
float4 m2; // Offset: 16 Size: 16
bool m3; // Offset: 32 Size: 4
bool m4[4]; // Offset: 48 Size: 52
float4 m5; // Offset: 112 Size: 16
float m6; // Offset: 128 Size: 4
float4 m7; // Offset: 144 Size: 16
float4x4 m8; // Offset: 160 Size: 64
float m9; // Offset: 224 Size: 4
float m10; // Offset: 228 Size: 4
float4 m11[2]; // Offset: 240 Size: 32
float m12[8]; // Offset: 272 Size: 116
float m13; // Offset: 388 Size: 4
};
我很清楚偏移量是如何工作的(基于大小),但我无法理解数组大小。
这里的一些数组大小似乎是随机的。 我无法弄清楚 bool m4[4]
数组的大小如何:52。对于大小为 116 的 float m12[8]
也是如此。 HLSL 编译器如何设法生成这些大小?
有什么帮助吗? 我已经查看了 MSDN packing page但他们对数组的讨论不多。
最佳答案
我会稍微简化你的例子,因为你已经得到了填充。
根据打包规则(您提到的链接),数组的一个重要部分是:
Arrays are not packed in HLSL by default. To avoid forcing the shader to take on ALU overhead for offset computations, every element in an array is stored in a four-component vector.
让我们以这个简单的 cbuffer 为例:
cbuffer cbPerObj : register( b0 )
{
float Alpha[4];
};
根据上述规则(每个 float 存储在四个 vector 中),这将(几乎)等同于:
cbuffer cbPerObj : register( b0 )
{
float4 Alpha[4];
};
或(展开)
cbuffer cbPerObj : register( b0 )
{
float Alpha1;
float3 Dummy1;
float Alpha2;
float3 Dummy2;
float Alpha3;
float3 Dummy3;
float Alpha4;
};
正如您所注意到的,您的最后一个元素没有被填充,这就是为什么您会注意到您的情况:
bool m4[4]; // Offset: 48 Size: 52
float4 m5; // Offset: 112 Size: 16
m4 为 16*4 = 64(减去最后 3),64-12 = 52
当然你也可以注意到,48 + 52 = 100(因为m5不需要越界,所以你可以找到偏移量丢失的12个字节)
如果你有,
bool m4[4]; // Offset: 48 Size: 52
float m5;
m5 的偏移量为 100,因为它可以适应边界。
希望这是有道理的。
关于c++ - HLSL 常量缓冲区中数组的意外大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24276402/
在 HLSL/Directx11 中工作时,我看到有两种绑定(bind) 3D 渲染目标的方法:绑定(bind)整个目标或在指定图层时绑定(bind)它。 如果绑定(bind)整个目标,如何在 HLS
我正在将一些 OpenCL 代码转换为 DirectCompute,需要在计算着色器中处理 8 位字符串,但找不到“字节”或“字符”的 HLSL 数据类型。 OpenCL 支持“char”类型,所以我
我是一个初学者像素着色器作家,我遇到了一些麻烦。我想获取 256x256、16 位输入 (DXGI_FORMAT_R16_UINT) 图像,并通过 256x256 查找纹理 (DXGI_FORMAT_
我正在寻找可以将 cg/hlsl 混合着色器转换为 glsl es 着色器的工具。我已经尝试过 hlsl2glsl,它不理解关键字“extern”,尽管它是一个可行的 hlsl 关键字,并且查看了 c
我正在寻找可以将 cg/hlsl 混合着色器转换为 glsl es 着色器的工具。我已经尝试过 hlsl2glsl,它不理解关键字“extern”,尽管它是一个可行的 hlsl 关键字,并且查看了 c
在过去一个月左右的时间里,我一直在努力学习 DirectX。所以我一直在 DirectX 9 和 10 之间来回混合。我在两者中看到的主要变化之一是如何在显卡中处理 vector 。 我注意到的一个重
统一缓冲区和常量缓冲区有什么区别? 它们是完全分开的还是可以将制服视为在恒定缓冲区中?换句话说,如果你想设置一个uniform,你需要一个常量缓冲区还是有其他方法? 我问是因为我有四个变量(float
在详细介绍之前,我想概述一下问题: 我使用 RWStructuredBuffers 来存储我的计算着色器 (CS) 的输出。由于顶点和像素着色器无法从 RWStructuredBuffers 中读取,
似乎此功能的文档记录很差。在 DirectX SDK 中的几何着色器教程中,没有使用 CreateGeometryShaderWithStreamOutput 的示例,也没有任何线程可以解释它的基础知
在着色器模型 3.0 中,我很确定这是一个不,但我还是想问这个, 在着色器模型 5.0 中,您可以在顶点着色器中对纹理进行采样吗? 如果我想为每个顶点提供大量补充信息,我有哪些选择? 编辑: 显然可以
我有一个 HLSL 像素着色器: struct PixelShaderInput { float4 pos : SV_POSITION; float2 texCoord : TEX
我正在尝试实现基于 GPU 的几何裁剪贴图,但在将简单的高度图应用于我的地形时遇到问题。对于高度图,我使用表面格式为“single”的简单纹理。我从 Catalinz's XNA blog 获取了纹理
我想知道 HLSL 中的那些输入和输出语义是干什么用的? 即为什么我必须写那个 TEXCOORD0; struct VS_OUTPUT { float2 tc : TEXCOORD0; }; 当
我找不到任何关于如何在 HLSL 中获取数组长度的文档或示例。 我将一组灯光推送到 hlsl 着色器,我想做一个 for(int i=0; i
HLSL 是否有像 GLSL 这样的常见矩阵的预定义变量? 我在找 gl_ProjectionMatrix和 gl_ModelViewMatrix分别? 谢谢! 最佳答案 不,不幸的是它没有。 您必须
我正在尝试在我的几何着色器中实现行进立方体算法。所以我将我的数据网格放入 Texture3D 中。现在我想在几何着色器中查找数据,这会引发错误“无法将表达式映射到 gs_4_0 指令集” 这是他抛出错
我正在尝试在 HLSL 中制作类似 Photoshop 的斜角效果。 困难的部分是找到一个点与最近边缘的距离(其中 alpha=0) 任何人有任何想法如何做到这一点? 最好的事物, 软件 最佳答案 花
所以,好吧。我正在尝试在我的小型游戏引擎中实现法线贴图,但我无法让它工作。 当我只使用每个顶点法线进行照明时,一切都很好,但是如果我尝试使用法线贴图进行照明,那么一切都会分崩离析。 我知道我有正确的
我正在编写一个着色器(HLSL),并且需要将颜色值打包为R32格式。我发现了用于将浮点数打包为R8G8B8A8格式的各种代码,但它们似乎都没有相反的作用。我的目标是SM3.0,因此(afaik)位操作
我有一个着色器,我想在其中移动顶点着色器中的一半顶点。我试图从性能的角度决定最好的方法,因为我们正在处理超过 100,000 个顶点,所以速度至关重要。我查看了 3 种不同的方法:(伪代码,但足以给你
我是一名优秀的程序员,十分优秀!