cuda - 使用 CUDA 向量类型有什么好处吗？-6ren

cuda - 使用 CUDA 向量类型有什么好处吗？

转载作者：行者123 更新时间：2023-12-04 01:00:50

27

4

CUDA 提供内置的矢量数据类型，如 uint2 , uint4等等。使用这些数据类型有什么好处吗？

假设我有一个包含两个值 A 和 B 的元组。将它们存储在内存中的一种方法是分配两个数组。第一个数组存储所有 A 值，第二个数组存储与 A 值对应的索引处的所有 B 值。另一种方法是分配一个类型为 uint2 的数组。 .我应该使用哪一种？推荐哪种方式？有没有uint3的成员(member)即 x , y , z并排在内存中？

最佳答案

这有点推测性，但可能会增加@ArchaeaSoftware 的答案。

我主要熟悉 Compute Capability 2.0 (Fermi)。对于这种架构，我认为使用矢量化类型没有任何性能优势，除了 8 位和 16 位类型。

查看 char4 的声明:

struct __device_builtin__ __align__(4) char4
{
    signed char x, y, z, w;
};

类型对齐到 4 个字节。不知道是什么 __device_builtin__做。也许它会在编译器中触发一些魔法......
float1 的声明看起来有点奇怪, float2 , float3和 float4 :

struct __device_builtin__ float1
{
    float x;
};

__cuda_builtin_vector_align8(float2, float x; float y;);

struct __device_builtin__ float3
{
    float x, y, z;
};

struct __device_builtin__ __builtin_align__(16) float4
{
    float x, y, z, w;
};

float2得到某种形式的特殊待遇。 float3是一个没有任何对齐的结构体和 float4对齐到 16 个字节。我不知道该怎么做。

全局内存事务是 128 字节，对齐到 128 字节。事务总是一次执行完整的扭曲。当 warp 到达执行内存事务的函数时，例如从全局内存加载 32 位，此时芯片将执行尽可能多的事务，以便为 warp 中的所有 32 个线程提供服务。因此，如果所有访问的 32 位值都在一个 128 字节的行内，则只需要一个事务。如果值来自不同的 128 字节行，则执行多个 128 字节事务。对于每个事务，当数据从内存中提取时，warp 会被搁置大约 600 个周期(除非它在 L1 或 L2 缓存中)。

因此，我认为找出哪种方法提供最佳性能的关键是考虑哪种方法导致最少的 128 字节内存事务。

假设内置向量类型只是结构体，其中一些具有特殊的对齐方式，使用向量类型会导致值以交错方式存储在内存(结构体数组)中。因此，如果经纱正在加载所有 x此时的值，由于 128 字节的事务，其他值( y 、 z 、 w )将被拉入 L1。当 warp 稍后尝试访问它们时，它们可能不再在 L1 中，因此必须发出新的全局内存事务。此外，如果编译器能够发出更广泛的指令以同时读取更多值，以备将来使用，它将使用寄存器来存储加载点和使用点之间的那些，可能会增加寄存器的使用的内核。

另一方面，如果将值打包到数组结构中，则可以使用尽可能少的事务来处理负载。因此，从 x 读取时数组，仅 x值加载到 128 字节事务中。这可能会导致更少的事务、更少的对缓存的依赖以及计算和内存操作之间的更均匀分布。

关于cuda - 使用 CUDA 向量类型有什么好处吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12340384/

27

4

0

文章推荐： eclipse - 如何更改 Eclipse 中的所有字体大小？

文章推荐： .net - 用于属性的 ASP.NET MVC 编辑器模板

文章推荐： jakarta-ee - Java EE 6 - 嵌入式容器 EJB 测试

文章推荐： sql - Oracle——优化SQL查询

javascript - 有序函数定义 |好处
如果函数定义顺序不对，Jslint 将指出错误。显然 jslint 是严格的，但我想知道将函数按顺序排列是否有任何好处。我的意思是在调用它们之前定义它们。最佳答案函数定义(和 var 语句)被
hardware - 基于三进制 'bit' 的计算机有什么实际用途/好处？
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 8 年前。 Improve this ques
python - 将我的网站上传到公共(public)存储库有哪些风险/好处？
我注意到Flask tutorial涉及到点的使用。看起来它只是用于在本地创建一个轮子，这将使服务器上的设置变得更容易，但作为一个网络开发新手，我很好奇:是否有人真的会一路将他们的网站上传到像 PyP
jquery - 使用 live() - 好处 - 类似于 bind()
我一直在阅读有关 jquery live event 的内容，但仍然有点困惑？使用它有什么好处？ http://docs.jquery.com/Events/live 我知道它与绑定(bind)类似，
cordova - AndroidX 过渡和 Cordova，有哪些风险/好处？
这是我的故事:我已将我的应用迁移到 AndroidX，因为我需要从网上找到的库中获取一些新功能。问题:我目前遇到了一些问题，因为我现在需要为 Cordova 开发一个插件来实现该应用程序的一部分。
unit-testing - RAD:依赖注入(inject) - 好处？
在使用 RAD 或一般不使用单元测试时使用依赖注入(inject)是否有任何好处？最佳答案是的，有以下几个好处: 减少依赖减少依赖携带更多可重用代码更多可测试代码更具可读性的代码更多引用
wix - 使用 MSM 代替 MSI 有哪些限制/好处？
我目前正在构建一个通过 MSI Windows Installer 分发的产品。我们的客户正在使用不同的形式(例如我们在他们自己的 MSI 中)集成该产品，使用 Bootstrap /链接器(如 Wi
language-agnostic - Scala 中的类型系统是图灵完备的。证明？例子？好处？
有人声称 Scala 的类型系统是图灵完备的。我的问题是: 这有正式的证据吗？简单的计算在 Scala 类型系统中会是什么样子？这对 Scala 这种语言有什么好处吗？与没有图灵完备类型系统的语言
javascript - React 新手，关于使用所有 JS 而不是 HTML 的问题/好处/缺点？
我开始尝试使用 React，我注意到我正在制作的简单应用程序全部使用 JS。我的 html 页面只是一个空的 body 标签! 所以我有几个问题，因为我是这个框架的新手。我的整个应用程序应该基本上都
.net - Windows VB.NET 1.1 到 2.0 升级 - 好处？
我们有一个相当大的基于 Windows 的 1.1 .NET 应用程序，我们正在考虑升级到 2.0。我们考虑更新的主要原因是我们可以利用 Visual Studio 2008 进行项目的持续开发，以及
jquery - 使用 ajax 分页更改 rel ='next' 和 rel ='prev' href 值以获得 SEO 好处
我有一个页面，其中内置了基于 ajax 的分页。分页用于页面中的“评论”功能。根据 Google 的网站管理员博客，具有 rel="next"和 rel="prev"值有利于 SEO。我在头部添加了

首页

博学

6Ren·AI

商城

cuda - 使用 CUDA 向量类型有什么好处吗？