gpt4 book ai didi

cuda - 在 nvidia gpu 上,__hmul 使用 fp32 核心吗?

转载 作者:行者123 更新时间:2023-12-03 07:51:31 24 4
gpt4 key购买 nike

引用https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/,每个SM具有三种类型的cuda核心,例如int32核心/fp32核心/fp64核心。如果数据类型是int32/fp32/fp64,我认为指令将分别发送到int32/fp32/fp64核心。

但是,half 数据类型怎么样,例如 __hmul__hmul2。他们使用fp32核心来计算吗?如果是这样,有人可以解释它是如何工作的吗?

最佳答案

据我(有限)所知 - 我们不确定什么在 NVIDIA GPU 上计算 FP16 乘法运算。

这是因为 NVIDIA 通常对其硬件的实际情况守口如瓶。它更喜欢营销术语(例如“CUDA 核心”——实际上不是核心)。 Hopper SM 图(如下)有可能实际上代表物理硬件,但也有可能这只是一种方便的概念化。我们不知道是否真的有 4-sub-SM,或者只是每个时钟周期安排 4 个扭曲的能力;我们不知道“张量核心”真的是不相交的硬件;我们不知道什么硬件处理半精度算术:FP32 功能单元? “张量核心”处于退化运行模式?还有别的吗?

重点是,您必须对 NVIDIA 的出版物进行“律师阅读”。他们 promise 他们明确 promise 的事情,而你需要消除他们鼓励你做出的隐含假设。所以,你不太知道盒子里有什么——你确实知道表格,比如 SM 每个周期可以退出的指令数量——并且你可以根据这些表格来设计和编写代码。当然还有大量的测试和分析。

enter image description here

注意:需要明确的是 - 我认为 NVIDIA 方面的这种行为是不恰当的。它应该告诉其客户以及科学/工程界它实际上拥有什么样的硬件;并且不应试图通过让我们蒙在鼓里来获取某种利益。

关于cuda - 在 nvidia gpu 上,__hmul 使用 fp32 核心吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/76959555/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com