gpt4 book ai didi

cuda - 使用 cuBLAS-XT 处理大输入量

转载 作者:行者123 更新时间:2023-12-02 07:43:16 25 4
gpt4 key购买 nike

This link cuBLAS-XT 例程提供核外操作 - 操作数数据的大小仅受系统内存大小的限制,而不受 GPU 板载内存大小的限制。这意味着只要输入数据可以存储在 CPU 内存上并且输出大小大于 GPU 内存大小,我们就可以使用 cuBLAS-XT 函数,对吧?

另一方面,this link说“在非常大的问题的情况下,cublasXt API 提供了将部分计算卸载到主机 CPU 的可能性”和“目前,只有例程 cublasXtgemm() 支持此功能。输入大小的问题是否属于这种情况是否大于 CPU 内存大小?

我不明白这两者之间的区别!如果有人帮助我理解其中的差异,我将不胜感激。

最佳答案

cublasXt 的目的是允许操作在多个 GPU 上自动运行。例如,矩阵乘法或其他支持的运算可以在多个 GPU 上运行。

cublasXtgemm 例程具有特殊功能,除了在 2 个或更多 GPU 上并行化矩阵乘法之外,它还可以在 2 个或更多 GPU 上并行化矩阵乘法PLUS使用主机CPU作为额外的计算引擎。

矩阵乘法问题很容易分解,如所讨论的 here 。如果您仅在 GPU 上运行所有“ block ”工作,这就是 cublasXtgemm 的普通功能(仅使用 GPU)。如果您在 GPU 上运行除其中一个工作 block 之外的所有工作 block ,并在 CPU 上运行其中一个工作 block ,这就是特殊功能。

关于cuda - 使用 cuBLAS-XT 处理大输入量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40440074/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com