gpt4 book ai didi

algorithm - 仅在 GPU 上求解小对称正定 Ax = b

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:34:21 26 4
gpt4 key购买 nike

我正在尝试优化实时 3D 建模中的应用程序。应用程序的计算部分几乎完全在 CUDA 中的 GPU 上运行。该应用程序需要每秒 500+ 次的小型 (6x6) double 对称正定线性系统 Ax = b 的解。目前,这是通过使用 Cholesky 的基于 CPU 的高效线性代数库来完成的,但需要每秒从 CPU - GPU 复制数据并返回 GPU 数百次,以及每次启动内核的开销等。

我如何才能完全在 GPU 上计算线性系统的解,而无需将数据带到 CPU 上?我已经阅读了一些关于 MAGMA 库的内容,但它似乎使用混合算法而不是仅使用 GPU 的算法。

我已经准备好解决 GPU 上的单个线性系统的解决方案将比现有的基于 CPU 的库慢很多,但我想看看是否可以通过删除主机和设备之间的数据通信以及内核启动等每秒数百次的开销。如果没有类似 GPU 的类似 LAPACK 的替代方案,我将如何着手实现一些东西来仅在 GPU 上解决这个特定的 6x6 案例?例如,是否可以在不使用 GPU BLAS 库投入大量时间的情况下完成?

最佳答案

NVIDIA 去年秋天在注册开发者网站上发布了批处理 Ax=b 求解器的代码。此代码适用于通用矩阵,如果您可以将对称矩阵扩展为完整矩阵(这对于 6x6 应该不是问题?),则应该足以满足您的需求。由于代码执行旋转,这对于正定矩阵来说是不必要的,因此它不是您的情况的最佳选择,但您可以根据自己的目的修改它,因为代码是在 BSD 许可下的。

NVIDIA 的标准开发者网站目前遇到了一些问题。此时您可以通过以下方式下载批处理求解器代码:

(1) 转到 http://www.nvidia.com/content/cuda/cuda-toolkit.html

(2) 如果您已有 NVdeveloper 帐户(例如通过 partners.nvidia.com),请单击屏幕右半部分的绿色“登录 nvdeveloper”链接。否则点击“加入nvdeveloper”申请新账号;新帐户请求通常会在一个工作日内获得批准。

(3) 根据提示使用您的电子邮件地址和密码登录

(4) 右侧有一个标题为“最新下载”的部分。从上数第五项是“批处理求解器”。单击它,它会将您带到代码的下载页面。

(5) 单击“下载”链接,然后单击“接受”接受许可条款。您应该开始下载。

关于algorithm - 仅在 GPU 上求解小对称正定 Ax = b,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11711192/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com