- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
嗨!
我正在 DirectX 11 中实现粒子系统并使用 Intel AVX instrinsics更新粒子数据并将其从 SoA(阵列结构)转换为 AoS(结构阵列),然后再将其传递到 IA 阶段。
似乎当我在重新映射阶段使用 AVX intrisincs 时,它会导致我的顶点缓冲区(包含粒子顶点)损坏并导致崩溃!
我以 SoA 方式构建我的粒子数据:
float* mXPosition;
float* mYPosition;
float* mZPosition;
我为每个组件分配内存
mXPosition = (float*) _aligned_malloc( NUM_PARTICLES * sizeof(float), 32 );
mYPosition = (float*) _aligned_malloc( NUM_PARTICLES * sizeof(float), 32 );
mZPosition = (float*) _aligned_malloc( NUM_PARTICLES * sizeof(float), 32 );
我使用 D3D11_USAGE_DYNAMIC
和 D3D11_CPU_ACCESS_WRITE
创建顶点缓冲区,以便能够在 CPU 上修改粒子数据。
D3D11_BUFFER_DESC desc;
ZeroMemory( &desc, sizeof( desc ) );
desc.BindFlags = D3D11_BIND_VERTEX_BUFFER;
desc.Usage = D3D11_USAGE_DYNAMIC;
desc.ByteWidth = sizeof(ParticleVertex12) * NUM_PARTICLES;
desc.StructureByteStride = sizeof(ParticleVertex12);
desc.CPUAccessFlags = D3D11_CPU_ACCESS_WRITE;
//Allocating aligned memory for array used for maping vertices to buffer
mVertices = (float*) _aligned_malloc( ( NUM_PARTICLES * 3 ) * sizeof(float), 32 );
if( FAILED( device->CreateBuffer( &desc, &subData, &mVertexBuffer ) ) )
return E_FAIL;
顶点缓冲区创建成功。
重映射阶段
D3D11_MAPPED_SUBRESOURCE mappedResource;
HRESULT hr = deviceContext->Map( mVertexBuffer, 0, D3D11_MAP_WRITE_DISCARD, 0, &mappedResource );
if( SUCCEEDED( hr ) )
{
size_t counter = 0;
for (int baseIndex = 0; baseIndex < NUM_PARTICLES / 8; baseIndex++)
{
// Mapping from SOA-pattern to AOS-pattern
//Load
__m256 xReg = _mm256_load_ps( &mXPosition[baseIndex * 8] );
__m256 yReg = _mm256_load_ps( &mYPosition[baseIndex * 8] );
__m256 zReg = _mm256_load_ps( &mZPosition[baseIndex * 8] );
//Set test values
xReg = _mm256_set_ps( 11.0f, 12.0f, 13.0f, 14.0f, 15.0f, 16.0f, 17.0f, 18.0f );
yReg = _mm256_set_ps( 21.0f, 22.0f, 23.0f, 24.0f, 25.0f, 26.0f, 27.0f, 28.0f );
zReg = _mm256_set_ps( 31.0f, 32.0f, 33.0f, 34.0f, 35.0f, 36.0f, 37.0f, 38.0f );
//Shuffle
__m256 xyReg = _mm256_shuffle_ps( xReg, yReg, _MM_SHUFFLE( 2,0,2,0 ) );
__m256 yzReg = _mm256_shuffle_ps( yReg, zReg, _MM_SHUFFLE( 3,1,3,1 ) );
__m256 zxReg = _mm256_shuffle_ps( zReg, xReg, _MM_SHUFFLE( 3,1,2,0 ) );
__m256 reg03 = _mm256_shuffle_ps( xyReg, zxReg, _MM_SHUFFLE( 2, 0, 2, 0 ) );
__m256 reg14 = _mm256_shuffle_ps( yzReg, xyReg, _MM_SHUFFLE( 3, 1, 2, 0 ) );
__m256 reg25 = _mm256_shuffle_ps( zxReg, yzReg, _MM_SHUFFLE( 3, 1, 3, 1 ) );
//Map, xyz
__m128* vertexRegAOS = (__m128*)mTempPtr;
vertexRegAOS[0] = _mm256_castps256_ps128( reg03 ); // x8,y8,z8,x7
vertexRegAOS[1] = _mm256_castps256_ps128( reg14 ); // y7,z7,x6,y6
vertexRegAOS[2] = _mm256_castps256_ps128( reg25 ); // z6,x5,y5,z5
vertexRegAOS[3] = _mm256_extractf128_ps( reg03, 1 ); // x4,y4,z4,x3
vertexRegAOS[4] = _mm256_extractf128_ps( reg14, 1 ); // y3,z3,x2,y2
vertexRegAOS[5] = _mm256_extractf128_ps( reg25, 1 ); // z2,x1,y1,z1
for ( int index = 0, subIndex = 0 ; index < 6; index++ )
{
mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
}
memcpy( mappedResource.pData, mVertices, sizeof( ParticleVertex12 ) * NUM_PARTICLES );
deviceContext->Unmap( mVertexBuffer, 0 );
}
应用程序在遇到这一行时崩溃
deviceContext->Unmap( mVertexBuffer, 0 );
并显示消息
D3D11 CORRUPTION: ID3D11DeviceContext::Unmap: First parameter is corrupt or NULL. [ MISCELLANEOUS CORRUPTION #13: CORRUPTED_PARAMETER1]
我可能已经找到了问题所在,但由于我对使用 AVX 还很陌生,所以我还没有设法解决它。
如果我注释掉这部分:
//Map, xyz
__m128* vertexRegAOS = (__m128*)mTempPtr;
vertexRegAOS[0] = _mm256_castps256_ps128( reg03 ); // x8,y8,z8,x7
vertexRegAOS[1] = _mm256_castps256_ps128( reg14 ); // y7,z7,x6,y6
vertexRegAOS[2] = _mm256_castps256_ps128( reg25 ); // z6,x5,y5,z5
vertexRegAOS[3] = _mm256_extractf128_ps( reg03, 1 ); // x4,y4,z4,x3
vertexRegAOS[4] = _mm256_extractf128_ps( reg14, 1 ); // y3,z3,x2,y2
vertexRegAOS[5] = _mm256_extractf128_ps( reg25, 1 ); // z2,x1,y1,z1
for ( int index = 0, subIndex = 0 ; index < 6; index++ )
{
mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
mVertices[counter++] = vertexRegAOS[index].m128_f32[(subIndex++) % 4];
}
然后它不会崩溃。类型转换中使用的 mTempPtr
定义如下
mTempPtr = new float[6];
有没有 AVX 专家知道我哪里做错了?感谢您提出任何建议!
谢谢!
最佳答案
我认为您的错误是为六个 32 位 float 分配空间,然后存储六个 128 位 float vector 。你很可能。踩到下一次分配的簿记数据,导致在尝试 free()
时出错。
mTempPtr = new float[6];
__m128* vertexRegAOS = (__m128*)mTempPtr;
vertexRegAOS[0] = _mm_setzero_ps();
vertexRegAOS[1] = _mm_setzero_ps(); // buffer overrun here: you only had room for 2 more floats, but you store 4.
vertexRegAOS[2] = ...; // step on more stuff
... // corrupt even more memory :P
您可以通过使用 VPERM2F128
然后使用一个 256b 存储而不是 2x VEXTRACTF128
(显然不能对其存储进行微融合)来保存一两个 uop和存储数据微指令)。
vertexRegAOS[0] = _mm256_castps256_ps128( reg03 ); // x8,y8,z8,x7
vertexRegAOS[1] = _mm256_castps256_ps128( reg14 ); // y7,z7,x6,y6
vertexRegAOS[2] = _mm256_castps256_ps128( reg25 ); // z6,x5,y5,z5
vertexRegAOS[3] = _mm256_extractf128_ps( reg03, 1 ); // x4,y4,z4,x3
// vertexRegAOS[4] = _mm256_extractf128_ps( reg14, 1 ); // y3,z3,x2,y2
// vertexRegAOS[5] = _mm256_extractf128_ps( reg25, 1 ); // z2,x1,y1,z1
__m256 reg45 = _mm256_permute2f128_ps (reg14, reg25, 1|(3<<4) );
_mm256_storeu_ps( (float*)(vertexRegAOS + 4), reg45);
不过,如果您的代码必须在 AMD Piledriver 上正常运行,请不要使用 256b 存储。它有一个糟糕的性能错误,使 256b 存储比两个 128b 慢得多。
此外,从 vertexRegAOS
复制到 mVertices[counter++]
的循环不只是一个 memcpy
吗?我不明白你为什么不直接存储到它,如果需要的话,使用未对齐的存储。它没有注释,也许我没有花足够的时间盯着它看,如果它实际上没有按顺序复制每个 float 的话。
关于c++ - DirectX 11 - 使用 AVX 的 AoS 到 SoA 转换导致重新映射时顶点缓冲区损坏,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32138321/
我想使用图中所示的迷宫,使用迭代深度优先搜索找到从起始节点到目标的路径。它是一个仅包含一对数字的文本文件,例如成对连接,又称边/弧。像这样: 11 3 2 3 0 3 1 4 5 4 5 7 6 7
问题:您有一个无向图 G = (V, E)(V = 顶点,E = 边),您必须访问每个顶点并在两个方向上通过每个边。 我所知道的图算法只有 DFS、BFS 和一些 MST(Kruskal 等)不幸的是
枚举任意图中两个顶点之间的所有简单路径通常需要指数时间,因为顶点之间可能存在指数数量的简单路径。但是,如果我们只对位于两个末端顶点之间的至少一条简单路径上的顶点怎么办? 即:给定一个无向图和两个不同的
我正在开发一个简单的 opengl 游戏以了解更多相关信息。但是由于某种原因,当我尝试随时间旋转我的立方体时,它会被拉伸(stretch)。你可以在照片中看到它: 我认为这与我的模型矩阵有关,但我不确
我已经在谷歌上搜索了很长一段时间,但我找不到任何东西。如何使用 Graphviz 绘制没有连接顶点的图形? 最佳答案 像这样: digraph g { SingleNode; } 简单地不定义
我目前正在使用 R 中的“igraph”包进行一些社交网络分析,我想知道是否有一种方法可以个性化社交网络中节点的放置。 例如,使用以下玩具代码: library(igraph) edg
我在 Box2D 中有一个多边形形状。形状是一个三角形,我希望有 3 个顶点。事实上,我创建的所有形状都会输出 8 个顶点。为什么是这样?如果我输出顶点数,那总是正确的数量。我不想渲染不必要的线条,但
来自user manual CGAL Surface_mesh 类: the data structure uses integer indices as descriptors for vertic
我正在尝试找到引用 ARFaceGeometry 网格索引的方法为了使用 ARKit 将图形放置在面部的特定部位。 我见过很多例子,其中功能与一些索引号,但我找不到对此列表的任何引用。它似乎有超过12
Apache TomCat(版本未知) 业务对象 4.1 顶点 4.4.3 在一台服务器上,我们拥有 TomCat 和 Business Objects。 APEX 也使用 TomCat。 在对我们的
我正在使用 MX Graph 进行一些工作,以帮助识别网站中的关键内容路径。我将其设置为每个顶点代表网站上的一个页面,每条边代表一组从页面 A 访问页面 B 的访问者。 一切都运行良好,除了边太多,我
我正在尝试使用三角形 strip 绘制一个平面。我了解如何手动执行此操作,但我真的很难使用 for 循环来执行此操作。到目前为止,下面的代码绘制了两个三角形。 //vertices for trian
如果我想通过 id 顶点获取名称,我可以使用这个函数:VAS(g, "name",id)但是如果我想要相反的方式,通过名称获取 id,我该怎么做呢? 最佳答案 igraph 本身不提供按名称查找顶点的
我有一个三角形,其任意顶点位于 3D 空间中。 我知道通过以下操作很容易找到这种三角形的质心: float centroid[3] = { 0, 0, 0 }; for (int i = 0; i =
我有一个点数组。每个点都有位置(x, y, z) 和法 vector (xn, yn, zn) ,一共6个 double 。考虑到浮点容差,我需要在此数组中找到唯一元素并删除重复条目。 实现它的简单有
我有一个相互连接的边列表 (E),如何找到从一个顶点连接到另一个顶点的最短路径? 我正在考虑使用 lowest common ancestors ,但边缘没有明确定义的根,所以我认为该解决方案不起作用
我现在正在使用计算着色器开发粒子系统。我将所有粒子都放在着色器存储缓冲区中。一个粒子包含两个顶点,当前位置和先前位置。 struct Particle{ glm::vec4 _currPo
我将我的顶点剪裁在边缘上,如这张专辑所示: http://imgur.com/a/VkCrJ 当我的地形大小为 400 x 400 时,我得到裁剪,但在 40x40 或更小时,我没有得到任何裁剪。这是
总是在顶点着色器中而不是在片段着色器中更好地进行硬计算吗?即使是具有超过 100.000 个多边形的高网格模型(假设有一堆独特的顶点)? 最佳答案 不,它并不总是更好。 选择合适的计算位置的最佳方法是
我想编辑一个立方体上的 1 个顶点,但我不知道该怎么做。我试过到处寻找此功能,但找不到解决方案。 这是我想要实现的目标的图像: 最佳答案 http://answers.unity3d.com/ques
我是一名优秀的程序员,十分优秀!