c++ - DirectX 11 - 使用 AVX 的 AoS 到 SoA 转换导致重新映射时顶点缓冲区损坏-6ren

c++ - DirectX 11 - 使用 AVX 的 AoS 到 SoA 转换导致重新映射时顶点缓冲区损坏

转载作者：行者123 更新时间：2023-11-30 05:39:46

嗨!
我正在 DirectX 11 中实现粒子系统并使用 Intel AVX instrinsics更新粒子数据并将其从 SoA(阵列结构)转换为 AoS(结构阵列)，然后再将其传递到 IA 阶段。

似乎当我在重新映射阶段使用 AVX intrisincs 时，它会导致我的顶点缓冲区(包含粒子顶点)损坏并导致崩溃!

我以 SoA 方式构建我的粒子数据:

float*      mXPosition;
float*      mYPosition;
float*      mZPosition;

我为每个组件分配内存

mXPosition = (float*) _aligned_malloc( NUM_PARTICLES * sizeof(float), 32 );
mYPosition = (float*) _aligned_malloc( NUM_PARTICLES * sizeof(float), 32 );
mZPosition = (float*) _aligned_malloc( NUM_PARTICLES * sizeof(float), 32 );

我使用 D3D11_USAGE_DYNAMIC 和 D3D11_CPU_ACCESS_WRITE 创建顶点缓冲区，以便能够在 CPU 上修改粒子数据。

D3D11_BUFFER_DESC desc;
ZeroMemory( &desc, sizeof( desc ) );

desc.BindFlags              = D3D11_BIND_VERTEX_BUFFER;
desc.Usage                  = D3D11_USAGE_DYNAMIC;
desc.ByteWidth              = sizeof(ParticleVertex12) * NUM_PARTICLES;
desc.StructureByteStride    = sizeof(ParticleVertex12);
desc.CPUAccessFlags         = D3D11_CPU_ACCESS_WRITE;

//Allocating aligned memory for array used for maping vertices to buffer
mVertices = (float*) _aligned_malloc( ( NUM_PARTICLES * 3 ) * sizeof(float), 32 );


if( FAILED( device->CreateBuffer( &desc, &subData, &mVertexBuffer ) ) )
    return E_FAIL;

顶点缓冲区创建成功。

重映射阶段

D3D11_MAPPED_SUBRESOURCE mappedResource;
HRESULT hr = deviceContext->Map( mVertexBuffer, 0, D3D11_MAP_WRITE_DISCARD, 0, &mappedResource );

if( SUCCEEDED( hr ) )
{
    size_t counter  = 0;
    for (int baseIndex = 0; baseIndex < NUM_PARTICLES / 8; baseIndex++)
    {
        //   Mapping from SOA-pattern to AOS-pattern 

        //Load
        __m256 xReg = _mm256_load_ps( &mXPosition[baseIndex * 8] );
        __m256 yReg = _mm256_load_ps( &mYPosition[baseIndex * 8] );
        __m256 zReg = _mm256_load_ps( &mZPosition[baseIndex * 8] );

        //Set test values
        xReg = _mm256_set_ps( 11.0f, 12.0f, 13.0f, 14.0f, 15.0f, 16.0f, 17.0f, 18.0f );
        yReg = _mm256_set_ps( 21.0f, 22.0f, 23.0f, 24.0f, 25.0f, 26.0f, 27.0f, 28.0f );
        zReg = _mm256_set_ps( 31.0f, 32.0f, 33.0f, 34.0f, 35.0f, 36.0f, 37.0f, 38.0f );

        //Shuffle
        __m256 xyReg = _mm256_shuffle_ps( xReg, yReg, _MM_SHUFFLE( 2,0,2,0 ) );
        __m256 yzReg = _mm256_shuffle_ps( yReg, zReg, _MM_SHUFFLE( 3,1,3,1 ) );
        __m256 zxReg = _mm256_shuffle_ps( zReg, xReg, _MM_SHUFFLE( 3,1,2,0 ) );

        __m256 reg03 = _mm256_shuffle_ps( xyReg, zxReg, _MM_SHUFFLE( 2, 0, 2, 0 ) );
        __m256 reg14 = _mm256_shuffle_ps( yzReg, xyReg, _MM_SHUFFLE( 3, 1, 2, 0 ) );
        __m256 reg25 = _mm256_shuffle_ps( zxReg, yzReg, _MM_SHUFFLE( 3, 1, 3, 1 ) );


        //Map, xyz
        __m128* vertexRegAOS = (__m128*)mTempPtr;

        vertexRegAOS[0] = _mm256_castps256_ps128( reg03 );  // x8,y8,z8,x7
        vertexRegAOS[1] = _mm256_castps256_ps128( reg14 );  // y7,z7,x6,y6
        vertexRegAOS[2] = _mm256_castps256_ps128( reg25 );  // z6,x5,y5,z5

        vertexRegAOS[3] = _mm256_extractf128_ps( reg03, 1 );    // x4,y4,z4,x3
        vertexRegAOS[4] = _mm256_extractf128_ps( reg14, 1 );    // y3,z3,x2,y2
        vertexRegAOS[5] = _mm256_extractf128_ps( reg25, 1 );    // z2,x1,y1,z1

        for ( int index = 0, subIndex = 0 ; index < 6; index++ )
        {
            mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
            mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
            mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
            mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
        }



    memcpy( mappedResource.pData, mVertices, sizeof( ParticleVertex12 ) * NUM_PARTICLES );
    deviceContext->Unmap( mVertexBuffer, 0 );
}

应用程序在遇到这一行时崩溃

deviceContext->Unmap( mVertexBuffer, 0 );

并显示消息

D3D11 CORRUPTION: ID3D11DeviceContext::Unmap: First parameter is corrupt or NULL. [ MISCELLANEOUS CORRUPTION #13: CORRUPTED_PARAMETER1]

我可能已经找到了问题所在，但由于我对使用 AVX 还很陌生，所以我还没有设法解决它。

如果我注释掉这部分:

        //Map, xyz
        __m128* vertexRegAOS = (__m128*)mTempPtr;

        vertexRegAOS[0] = _mm256_castps256_ps128( reg03 );  // x8,y8,z8,x7
        vertexRegAOS[1] = _mm256_castps256_ps128( reg14 );  // y7,z7,x6,y6
        vertexRegAOS[2] = _mm256_castps256_ps128( reg25 );  // z6,x5,y5,z5

        vertexRegAOS[3] = _mm256_extractf128_ps( reg03, 1 );    // x4,y4,z4,x3
        vertexRegAOS[4] = _mm256_extractf128_ps( reg14, 1 );    // y3,z3,x2,y2
        vertexRegAOS[5] = _mm256_extractf128_ps( reg25, 1 );    // z2,x1,y1,z1

        for ( int index = 0, subIndex = 0 ; index < 6; index++ )
        {
            mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
            mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
            mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
            mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
        }

然后它不会崩溃。类型转换中使用的 mTempPtr 定义如下

mTempPtr = new float[6];

有没有 AVX 专家知道我哪里做错了？感谢您提出任何建议!

谢谢!

最佳答案

我认为您的错误是为六个 32 位 float 分配空间，然后存储六个 128 位 float vector 。你很可能。踩到下一次分配的簿记数据，导致在尝试 free() 时出错。

mTempPtr = new float[6];
__m128* vertexRegAOS = (__m128*)mTempPtr;
vertexRegAOS[0] = _mm_setzero_ps();
vertexRegAOS[1] = _mm_setzero_ps();  // buffer overrun here: you only had room for 2 more floats, but you store 4.
vertexRegAOS[2] = ...;  // step on more stuff
... // corrupt even more memory :P

您可以通过使用 VPERM2F128 然后使用一个 256b 存储而不是 2x VEXTRACTF128(显然不能对其存储进行微融合)来保存一两个 uop和存储数据微指令)。

    vertexRegAOS[0] = _mm256_castps256_ps128( reg03 );  // x8,y8,z8,x7
    vertexRegAOS[1] = _mm256_castps256_ps128( reg14 );  // y7,z7,x6,y6
    vertexRegAOS[2] = _mm256_castps256_ps128( reg25 );  // z6,x5,y5,z5

    vertexRegAOS[3] = _mm256_extractf128_ps( reg03, 1 );    // x4,y4,z4,x3
    // vertexRegAOS[4] = _mm256_extractf128_ps( reg14, 1 );    // y3,z3,x2,y2
    // vertexRegAOS[5] = _mm256_extractf128_ps( reg25, 1 );    // z2,x1,y1,z1
    __m256 reg45 = _mm256_permute2f128_ps (reg14, reg25, 1|(3<<4) );
    _mm256_storeu_ps( (float*)(vertexRegAOS + 4), reg45);

不过，如果您的代码必须在 AMD Piledriver 上正常运行，请不要使用 256b 存储。它有一个糟糕的性能错误，使 256b 存储比两个 128b 慢得多。

此外，从 vertexRegAOS 复制到 mVertices[counter++] 的循环不只是一个 memcpy 吗？我不明白你为什么不直接存储到它，如果需要的话，使用未对齐的存储。它没有注释，也许我没有花足够的时间盯着它看，如果它实际上没有按顺序复制每个 float 的话。

关于c++ - DirectX 11 - 使用 AVX 的 AoS 到 SoA 转换导致重新映射时顶点缓冲区损坏，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32138321/

文章推荐： c++ - cocos2d-x 3.6 如何调用ScrollView 的addEventListener？

文章推荐： c++ - AttachConsole 和 QProcess::readAll()

文章推荐： c++ - 通过引用 CUDA 指针进行 CUDA 矩阵求逆

文章推荐： C++编译QT报错

java - 深度优先搜索随机选择节点/顶点
我想使用图中所示的迷宫，使用迭代深度优先搜索找到从起始节点到目标的路径。它是一个仅包含一对数字的文本文件，例如成对连接，又称边/弧。像这样: 11 3 2 3 0 3 1 4 5 4 5 7 6 7
algorithm - 访问无向图中的边、顶点
问题:您有一个无向图 G = (V, E)(V = 顶点，E = 边)，您必须访问每个顶点并在两个方向上通过每个边。我所知道的图算法只有 DFS、BFS 和一些 MST(Kruskal 等)不幸的是
algorithm - 查找无向图中两个顶点之间所有简单路径上的所有*顶点*
枚举任意图中两个顶点之间的所有简单路径通常需要指数时间，因为顶点之间可能存在指数数量的简单路径。但是，如果我们只对位于两个末端顶点之间的至少一条简单路径上的顶点怎么办？即:给定一个无向图和两个不同的
Opengl模型矩阵拉伸(stretch)顶点
我正在开发一个简单的 opengl 游戏以了解更多相关信息。但是由于某种原因，当我尝试随时间旋转我的立方体时，它会被拉伸(stretch)。你可以在照片中看到它: 我认为这与我的模型矩阵有关，但我不确
Graphviz 点语言 - 绘制单个断开连接的节点/顶点？
我已经在谷歌上搜索了很长一段时间，但我找不到任何东西。如何使用 Graphviz 绘制没有连接顶点的图形？最佳答案像这样: digraph g { SingleNode; } 简单地不定义
r - 我可以个性化节点(顶点)在网络中的位置吗？
我目前正在使用 R 中的“igraph”包进行一些社交网络分析，我想知道是否有一种方法可以个性化社交网络中节点的放置。例如，使用以下玩具代码: library(igraph) edg
java - 形状中的 Box2D 顶点
我在 Box2D 中有一个多边形形状。形状是一个三角形，我希望有 3 个顶点。事实上，我创建的所有形状都会输出 8 个顶点。为什么是这样？如果我输出顶点数，那总是正确的数量。我不想渲染不必要的线条，但
CGAL::Surface_mesh - 使用整数索引访问面/顶点？
来自user manual CGAL Surface_mesh 类: the data structure uses integer indices as descriptors for vertic
ios - 将图形放在额头 ARFaceGeometry 顶点
我正在尝试找到引用 ARFaceGeometry 网格索引的方法为了使用 ARKit 将图形放置在面部的特定部位。我见过很多例子，其中功能与一些索引号，但我找不到对此列表的任何引用。它似乎有超过12
tomcat - Apache TomCat - 顶点
Apache TomCat(版本未知) 业务对象 4.1 顶点 4.4.3 在一台服务器上，我们拥有 TomCat 和 Business Objects。 APEX 也使用 TomCat。在对我们的
javascript - 如何在边上显示 MXGraph 顶点？
我正在使用 MX Graph 进行一些工作，以帮助识别网站中的关键内容路径。我将其设置为每个顶点代表网站上的一个页面，每条边代表一组从页面 A 访问页面 B 的访问者。一切都运行良好，除了边太多，我
C++使用for循环绘制三角形带 - 顶点，索引
我正在尝试使用三角形 strip 绘制一个平面。我了解如何手动执行此操作，但我真的很难使用 for 循环来执行此操作。到目前为止，下面的代码绘制了两个三角形。 //vertices for trian
c++ - 如何通过名称获取 id 顶点？
如果我想通过 id 顶点获取名称，我可以使用这个函数:VAS(g, "name",id)但是如果我想要相反的方式，通过名称获取 id，我该怎么做呢？最佳答案 igraph 本身不提供按名称查找顶点的
algorithm - 使用法线沿二维平面置换 3D 顶点
我有一个三角形，其任意顶点位于 3D 空间中。我知道通过以下操作很容易找到这种三角形的质心: float centroid[3] = { 0, 0, 0 }; for (int i = 0; i =
c++ - 从数组中查找重复的 3D 顶点
我有一个点数组。每个点都有位置(x, y, z) 和法 vector (xn, yn, zn) ，一共6个 double 。考虑到浮点容差，我需要在此数组中找到唯一元素并删除重复条目。实现它的简单有
algorithm - 找到两个节点(顶点)之间的最短路径
我有一个相互连接的边列表 (E)，如何找到从一个顶点连接到另一个顶点的最短路径？我正在考虑使用 lowest common ancestors ，但边缘没有明确定义的根，所以我认为该解决方案不起作用
c++ - 着色器存储缓冲区中的 OpenGL 顶点
我现在正在使用计算着色器开发粒子系统。我将所有粒子都放在着色器存储缓冲区中。一个粒子包含两个顶点，当前位置和先前位置。 struct Particle{ glm::vec4 _currPo
c++ - 从侧面剪裁 OpenGL 顶点
我将我的顶点剪裁在边缘上，如这张专辑所示: http://imgur.com/a/VkCrJ 当我的地形大小为 400 x 400 时，我得到裁剪，但在 40x40 或更小时，我没有得到任何裁剪。这是
performance - 着色器的性能(顶点 VS 片段)
总是在顶点着色器中而不是在片段着色器中更好地进行硬计算吗？即使是具有超过 100.000 个多边形的高网格模型(假设有一堆独特的顶点)？最佳答案不，它并不总是更好。选择合适的计算位置的最佳方法是
c# - 如何在 Unity 中编辑网格/顶点
我想编辑一个立方体上的 1 个顶点，但我不知道该怎么做。我试过到处寻找此功能，但找不到解决方案。这是我想要实现的目标的图像: 最佳答案 http://answers.unity3d.com/ques

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - DirectX 11 - 使用 AVX 的 AoS 到 SoA 转换导致重新映射时顶点缓冲区损坏