vertex-shader - 为什么这个计算着色器比顶点着色器慢得多？-6ren

vertex-shader - 为什么这个计算着色器比顶点着色器慢得多？

转载作者：行者123 更新时间：2023-12-04 05:39:07

我正在探索使用计算着色器将骨骼变形应用于网格顶点，而不是使用流输出的顶点着色器。我发现计算着色器的执行速度比顶点着色器慢得多，但在我把它写下来之前，我想确定我没有做错什么。

使用我的 100,000 个顶点的测试数据和 300 个骨骼的 1,000 帧动画数据，顶点着色器的运行时间约为 0.22 毫秒，而计算着色器的运行时间是 0.85 毫秒的 4 倍。计时是通过 D3D API 计时器查询(而不是 cpu 计时器)完成的。

变形结构体.hlsl

struct Vertex {
  float3 position : POSITION;
  float3 normal : NORMAL;
  float2 texcoord : TEXCOORD;
  float3 tangent : TANGENT;
  float4 color : COLOR;
};

struct BoneWeights {
  uint index;
  float weight;
};

StructuredBuffer<matrix> g_bone_array : register(t0);
Buffer<uint> g_bone_offsets : register(t1);
Buffer<uint> g_bone_counts : register(t2);
StructuredBuffer<BoneWeights> g_bone_weights : register(t3);

bone_deform_cs.hlsl

#include "deform_structs.hlsl"

StructuredBuffer<Vertex> g_input_vertex : register(t4);
RWStructuredBuffer<Vertex> g_output_vertex : register(u0);

[numthreads(64,1,1)]
void BoneDeformCS(uint id : SV_DispatchThreadID) {
  Vertex vert = g_input_vertex[id.x];
  uint offset = g_bone_offsets[id.x];
  uint count = g_bone_counts[id.x];

  matrix bone_matrix = 0;
  for (uint i = offset; i < (offset + count); ++i) {
    BoneWeights weight_info = g_bone_weights[i];
    bone_matrix += weight_info.weight * g_bone_array[weight_info.index];
  }

  vert.position = mul(float4(vert.position,1), bone_matrix).xyz;
  vert.normal = normalize(mul(vert.normal, (float3x3)bone_matrix));
  vert.tangent = normalize(mul(vert.tangent, (float3x3)bone_matrix));
  g_output_vertex[id.x] = vert;
}

bone_deform_vs.hlsl

#include "deform_structs.hlsl"

void BoneDeformVS(uint id : SV_VertexID, Vertex vsin, out Vertex vsout) {
  uint offset = g_bone_offsets[id];
  uint count = g_bone_counts[id];

  matrix bone_matrix = 0;
  for (uint i = offset; i < (offset + count); ++i) {
    BoneWeights bone_info = g_bone_weights[i];
    bone_matrix += bone_info.weight * g_bone_array[bone_info.index];
  }

  vsout.position = mul(float4(vsin.position,1), bone_matrix).xyz;
  vsout.normal = normalize(mul(vsin.normal, (float3x3)bone_matrix));
  vsout.tangent = normalize(mul(vsin.tangent, (float3x3)bone_matrix));
  vsout.texcoord = vsin.texcoord;
  vsout.color = vsin.color;
}

缓冲区运行后比较它们的内容，它们是相同的并且包含预期值。

我怀疑我可能错误地执行了计算着色器，产生了太多线程？我有我传递给 Dispatch 的号码吗？错误的？由于它是一维数据行，因此使用 [numthreads(64,1,1)] 对我来说是有意义的。 .我尝试了 32-1024 的各种值。 64 似乎是最佳选择，因为它是高效使用 AMD GPU 所需的最低要求。反正。当我调用 Dispatch ，我要求它执行 (vertex_count / 64) + (vertex_count % 64 != 0) ? 1 : 0 .对于 100,000 个顶点，调用最终为 Dispatch(1563,1,1) .

ID3D11ShaderResourceView * srvs[] = {bone_array_srv, bone_offset_srv,
                                     bone_count_srv, bone_weights_srv,
                                     cs_vertices_srv};
ID3D11UnorderedAccessView * uavs[] = {cs_output_uav};
UINT srv_count = sizeof(srvs) / sizeof(srvs[0]);
UINT uav_count = sizeof(uavs) / sizeof(uavs[0]);
UINT thread_group_count = vertex_count / 64 + (vertex_count % 64 != 0) ? 1 : 0;

context->CSSetShader(cs, nullptr, 0);
context->CSSetShaderResources(0, srv_count, srvs);
context->CSSetUnorderedAccessViews(0, uav_count, uavs);
context->Dispatch(thread_group_count, 1, 1);

这就是顶点着色器的执行方式:

ID3D11ShaderResourceView * srvs[] = {bone_array_srv, bone_offset_srv,
                                     bone_count_srv, bone_weights_srv};
UINT srv_count = sizeof(srvs) / sizeof(srvs[0]);
UINT stride = 0;
UINT offset = 0;

context->GSSetShader(streamout_gs, nullptr, 0);
context->VSSetShader(vs, nullptr, 0);
context->VSSetShaderResources(0, srv_count, srvs);
context->SOSetTargets(1, &vs_output_buf, &offset);
context->IASetPrimitiveTopology(D3D11_PRIMITIVE_TOPOLOGY_POINTLIST);
context->IASetInputLayout(vs_input_layout);
context->IASetVertexBuffers(0, 1, &vs_vertices, &stride, &offset);
context->Draw(vertex_count, 0);

或者答案仅仅是从着色器资源 View 读取并写入无序访问 View 比从顶点缓冲区读取并写入流输出缓冲区要慢得多？

最佳答案

我只是在学习如何使用计算着色器，所以我不是专家。关于你的骨骼计算，我确信 CS 至少应该和 VS 一样快。直觉告诉我numthreads (64,1,1)效率低于 numthreads (16,16,1) .
所以你可以试试这种方法:

将线性缓冲区视为二次布局，x 和 y 大小相同

计算 x/y 大小为 size = ceil (sqrt (numvertices))

使用 dispat ch(size / 16, size / 16)在你的程序和numthreads (16,16,1)在您的 hlsl 文件中

在复制 size 的位置分配一个常量缓冲区和 numvertices值

而不是使用 id.x作为索引，您将自己的(线性)索引计算为 int index = id.y * size +id.x) ,(也许 id.xy 也可以作为索引)

在大多数情况下 size * size将大于 numvertices ，所以你最终会得到比顶点更多的线程。您可以通过在 hlsl 函数中添加条件来阻止这些额外的线程:

int index = id.y * size +id.x;
if (index < numvertices) { .. // your code follows

我希望这种方法可以加快您的 CS 计算速度。

================ 编辑==================

我的建议是基于我自己的计时测试。为了验证我的情况，我用更多的 numthreads 参数变化重复了这些测试。
我计算了超过 1034 x 827 = 855,118 像素的 mandelbrot 集。结果如下:

numthreads       Dispatch      groups  threads/  total
  x   y    fps     x     y             group     threads

  4   4    240    259   207    53445     16     855118
  8   8    550    129   103    13361     64     855118
 16  16    600     65    52     3340    256     855118
 32  32    580     32    26      835   1024     855118
 64   1    550     16   827    13361     64     855118
256   1    460      4   827     3340    256     855118
512   1    370      2   827     1670    512     855118

如您所见，最佳点 - numthreads(16,16,1) - 创建与 numthreads(256,1,1) 相同的 #of 线程组 (3340)，但性能提高了 30%。
请注意，总线程数(并且必须)始终为相同 !
我的 GPU 是 ATI 7790。

================ 编辑2 ==================

为了更深入地调查您关于 CS 与 VS 速度的问题，我重新观看了一个非常有趣的第 9 channel 视频(PDC09 演示文稿，由 Microsoft 首席架构师 Chas Boyd 举办，关于直接计算，请参见下面的链接)。在此演示文稿中，Boyd 指出优化线程布局 (numthreads) 可以导致吞吐量增加两倍。

然而，更有趣的是他的演讲部分(从第 40 分钟开始)，他解释了 UAV 和 GPU 内存布局之间的相关性(“图形与计算 I/O”)。我不想从 Boyds 的陈述中得出错误的结论，但似乎至少有可能，计算着色器通过无人机绑定(bind) 做有一个 更低的内存带宽比其他 GPU 着色器。如果这是真的，我们可能会解释无人机不能绑定(bind)到 VS 的事实，例如(至少在 11.0 版本中)。

由于这些内存访问模式也取决于硬件设计，因此您应该将您的问题直接上报给 ATI/NVIDIA 工程师。

结论

我已经吸收了大量关于 CS 使用的信息，但没有丝毫迹象表明 CS 可以比 VS 运行相同的算法慢。如果情况确实如此，那么您已经检测到对所有使用直接计算的人来说都很重要的东西。

链接: http://channel9.msdn.com/Events/PDC/PDC09/P09-16

关于vertex-shader - 为什么这个计算着色器比顶点着色器慢得多？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20206093/

文章推荐： ruby-on-rails - rails : accessing current user session in a model (

文章推荐： ruby-on-rails - 如何更改表单上的验证消息

文章推荐： ruby-on-rails - Rails update_attributes 使用 has_secure_password

C# Dll注入(inject)器，VB.Net Dll注入(inject)器
我之前让 dll 注入(inject)器变得简单，但我有 Windows 7，我用 C# 和 C++ 做了它，它工作得很好!但是现在当我在 Windows 8 中尝试相同的代码时，它似乎没有以正确的方
javascript - Polymer 1.0 尝试制作一种类似于核心 split 器的 split 器，可以称为铁 split 器
我正在尝试制作一个名为 core-splitter 的元素，该元素在 1.0 中已弃用，因为它在我们的项目中起着关键作用。如果您不知道 core-splitter 的作用，我可以提供一个简短的描述。
scrapy - 在scrapy的同一进程中运行多个蜘蛛后如何停止 react 器？
我有几个不同的蜘蛛，想一次运行所有它们。基于 this和 this ，我可以在同一个进程中运行多个蜘蛛。但是，我不知道如何设计一个信号系统来在所有蜘蛛都完成后停止 react 器。我试过了: cra
twisted - 在某个条件下停止扭曲 react 器
有没有办法在达到特定条件时停止扭曲 react 器。例如，如果一个变量被设置为某个值，那么 react 器应该停止吗？最佳答案理想情况下，您不会将变量设置为一个值并停止 react 器，而是调用
javascript - 我如何定义我的应用程序的注入(inject)器
https://code.angularjs.org/1.0.0rc9/angular-1.0.0rc9.js 上面的链接定义了外部js文件，我不知道Angular-1.0.0rc9.js的注入(in
angularjs - 如何为我的应用程序检索注入(inject)器？
我正在尝试运行一个函数并将服务注入(inject)其中。我认为这可以使用 $injector 轻松完成.所以我尝试了以下(简化示例): angular.injector().invoke( [ "$q
gwt - 使用多个抽象模块实例化一个注入(inject)器
在 google Guice 中，我可以使用函数 createInjector 创建基于多个模块的注入(inject)器。因为我使用 GWT.create 在 GoogleGin 中实例化注入(in
c# - 属性的自定义配置绑定(bind)器
我在 ASP.NET Core 1.1 解决方案中使用配置绑定(bind)。基本上，我在“ConfigureServices Startup”部分中有一些用于绑定(bind)的简单代码，如下所示: s
java - Spring初始化绑定(bind)器
我在 Spring MVC 中设置 initBinder 时遇到一些问题。我有一个 ModelAttribute，它有一个有时会显示的字段。 public class Model { privat
jquery post表单数据和MVC模型绑定(bind)器
我正在尝试通过jquery post发布knockoutjs View 模型 var $form = $('#barcodeTemplate form'); var data = ko.toJS(vm
c# - 具有多态对象集合的复杂模型的自定义模型绑定(bind)器
如何为包含多态对象集合的复杂模型编写自定义模型绑定(bind)程序？我有下一个模型结构: public class CustomAttributeValueViewModel { publi
c# - 使用多个构造函数注册开放泛型的简单注入(inject)器
您好，我正在尝试实现我在 this article 中找到的扩展方法对于简单的注入(inject)器，因为它不支持开箱即用的特定构造函数的注册。根据这篇文章，我需要用一个假的委托(delegate)
c# - 注册动态类型的简单注入(inject)器
你好，我想自动注册我的依赖项。我现在拥有的是: public interface IRepository where T : class public interface IFolderReposi
javascript - 带有位置服务的angularjs注入(inject)器
我正在使用 Jasmine 测试一些 Angular.js 代码。为此，我需要一个 Angular 注入(inject)器: var injector = angular.injector(['ng'
C 代码 reshape 器
我正在使用 Matlab 代码生成器。不可能包含代码风格指南。这就是为什么我正在寻找一个工具来“ reshape ”、重命名和重新格式化生成的代码，根据我的: 功能横幅约定文件横幅约定命名约定等
c++ - 与模板模板类一起使用的自定义模板参数绑定(bind)器
这个问题在这里已经有了答案: Where and why do I have to put the "template" and "typename" keywords? (8 个答案) 关闭 8
c++ - 开源dll注入(inject)器
我开发了一种工具，可以更改某些程序的外观。为此，我需要在某些进程中注入(inject)一个 dll。现在我基本上使用这个 approach .问题通常是人们无法注入(inject) dll，因为他们
java - 是否有使用方面和注释的数据绑定(bind)器？
我想使用 swing、spring 和 hibernate 编写一个 java 应用程序。我想使用数据绑定(bind)器用 bean 的值填充 gui，并且我还希望它反射(reflect) gui
python - 当两个蜘蛛都完成时如何停止 react 器
我有这段代码，当两个蜘蛛完成后，程序仍在运行。 #!C:\Python27\python.exe from twisted.internet import reactor from scrapy.cr
java - 我如何才能限定我不使用的 Autowiring 器 "own"
要点是 Spring Batch (v2) 测试框架具有带有 @Autowired 注释的 JobLauncherTestUtils.setJob。我们的测试套件有多个 Job 类提供者。因为这个类不

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

vertex-shader - 为什么这个计算着色器比顶点着色器慢得多？