cuda - 任何人都可以提供演示在 cuda 中使用 16 位浮点的示例代码吗？-6ren

cuda - 任何人都可以提供演示在 cuda 中使用 16 位浮点的示例代码吗？

转载作者：行者123 更新时间：2023-12-04 06:19:31

27

4

Cuda 7.5 支持 16 位浮点变量。
任何人都可以提供示例代码来演示它的使用吗？

最佳答案

有几点需要提前注意:

引用半精度intrinsics .

请注意，大多数或所有这些内在函数仅在设备代码中受支持。 (不过，@njuffa 已经创建了一组主机可用的转换函数 here )

请注意，计算能力为 5.2 及以下的设备本身不支持半精度算术。这意味着要执行的任何算术运算都必须在某些受支持的类型上完成，例如 float .计算能力为 5.3 的设备(目前为 Tegra TX1)和可能的 future 设备将支持“ native ”半精度算术运算，但这些目前通过诸如 __hmul 之类的内在函数公开。 .内在像 __hmul在不支持 native 操作的设备中将是未定义的。

你应该包括 cuda_fp16.h在您打算在设备代码中使用这些类型和内部函数的任何文件中。

考虑到以上几点，这里是一个简单的代码，需要一组 float数量，将它们转换为 half数量，并按比例因子缩放它们:

$ cat t924.cu
#include <stdio.h>
#include <cuda_fp16.h>
#define DSIZE 4
#define SCF 0.5f
#define nTPB 256
__global__ void half_scale_kernel(float *din, float *dout, int dsize){

  int idx = threadIdx.x+blockDim.x*blockIdx.x;
  if (idx < dsize){
    half scf = __float2half(SCF);
    half kin = __float2half(din[idx]);
    half kout;
#if __CUDA_ARCH__ >= 530
    kout = __hmul(kin, scf);
#else
    kout = __float2half(__half2float(kin)*__half2float(scf));
#endif
    dout[idx] = __half2float(kout);
    }
}

int main(){

  float *hin, *hout, *din, *dout;
  hin  = (float *)malloc(DSIZE*sizeof(float));
  hout = (float *)malloc(DSIZE*sizeof(float));
  for (int i = 0; i < DSIZE; i++) hin[i] = i;
  cudaMalloc(&din,  DSIZE*sizeof(float));
  cudaMalloc(&dout, DSIZE*sizeof(float));
  cudaMemcpy(din, hin, DSIZE*sizeof(float), cudaMemcpyHostToDevice);
  half_scale_kernel<<<(DSIZE+nTPB-1)/nTPB,nTPB>>>(din, dout, DSIZE);
  cudaMemcpy(hout, dout, DSIZE*sizeof(float), cudaMemcpyDeviceToHost);
  for (int i = 0; i < DSIZE; i++) printf("%f\n", hout[i]);
  return 0;
}

$ nvcc -o t924 t924.cu
$ cuda-memcheck ./t924
========= CUDA-MEMCHECK
0.000000
0.500000
1.000000
1.500000
========= ERROR SUMMARY: 0 errors
$

如果你研究了上面的代码，你会注意到，除了 cc5.3 和更高版本的设备，算术是按照常规的 float 完成的。手术。这与上述注 3 一致。

要点如下:

在 cc5.2 及以下的设备上，half数据类型可能仍然有用，但主要用作存储优化(以及相关的内存带宽优化，因为例如给定的 128 位向量加载可以一次加载 8 half 数量)。例如，如果您有一个大型神经网络，并且您已经确定权重可以容忍存储为半精度量(从而将存储密度加倍，或大约加倍可以在GPU 的存储空间)，那么您可以将神经网络权重存储为半精度。然后，当您需要执行前向传递(推理)或后向传递(训练)时，您可以从内存中加载权重，将它们即时(使用内在函数)转换为 float数量，执行必要的操作(可能包括由于训练调整权重)，然后(如有必要)再次将权重存储为 half数量。

对于cc5.3及以后的设备，如果算法能容忍的话，或许可以进行与上面类似的操作，但无需转换为float (也许回到 half )，而是将所有数据留在 half 中表示，并直接进行必要的算术运算(使用例如 __hmul 或 __hadd 内在函数)。

虽然我没有在这里演示， half数据类型在主机代码中是“可用的”。我的意思是，您可以为该类型的项目分配存储空间，并执行例如 cudaMemcpy对其进行操作。但是主机代码对 half一无所知数据类型(例如，如何对其进行算术运算，或打印出来，或进行类型转换)和内部函数在主机代码中不可用。因此，您当然可以为 half 的大型数组分配存储空间。数据类型(可能存储一组神经网络权重)，但您只能轻松地从设备代码而不是主机代码直接操作该数据。

还有一些评论:

CUBLAS 库 implements a matrix-matrix multiply旨在直接在 half 上工作数据。上面的描述应该对不同设备类型(即计算能力)的“幕后”可能发生的事情有一些了解。

关于 half 使用的相关问题推力是 here .

关于cuda - 任何人都可以提供演示在 cuda 中使用 16 位浮点的示例代码吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32735292/

27

4

0

文章推荐： java - 如何关联两个 selectManyListbox？

c - 错误 "invalid types ' 浮点 [100][浮点 ]' for array subscript"
这个问题已经有答案了: Invalid types 'double [100][double]' for array subscript (3 个回答) 已关闭 6 年前。我已复制下面的整个代码并在
math - 浮点;除法与乘法
您有 2 个功能； f(x)= x(((x+1)^(1/2))-(x^(1/2))) g(x)= x/(((x+1)^(1/2))+(x^(1/2))) 哪个更准确？旁注:如果你能解释为什么，
java - 浮点 - NaN
我正在从事一个关于java的研究项目，其中必须完成一些艰难的计算。然而，我已经完成了大部分工作，但停留在某个点上。我必须计算以下内容: (2.1-2.3) raised to power 0.3. 但
c - 浮点 while 循环
int main() { float x = 50; float y = 1/x; float result = y * x; float test = 41;
c++ - 浮点/整数类型转换的可靠溢出检测
有没有安全的方法来可靠地确定整数类型 T可以存储浮点整数值 f (所以 f == floor(f) )没有任何溢出？请记住，不能保证浮点类型 F与 IEC 559 (IEEE 754) 兼容，并且有
c++ - 浮点，相等比较是否足以防止被零除？
// value will always be in the range of [0.0 - maximum] float obtainRatio(float value, float maximum
c++ - 浮点 == 可以吗？
就在今天，我遇到了我们正在使用的第三方软件，在他们的示例代码中，有以下内容: // Defined in somewhere.h static const double BAR = 3.14; //
jQuery 浮点 : clear graph
是否有推荐的方法来清除 jQuery Flot 图表？我在 API 引用中找不到任何内容。最佳答案 “清除”是指“破坏整个图表”还是只是清除数据？要核对整个图表:$('#canvas_id').e
c - 对单精度(浮点)值求和时的错误传播
我正在学习单精度并想了解错误传播。根据this nice website ，加法是一个危险的操作。所以我编写了一个小的 C 程序来测试错误累积的速度。我不完全确定这是否是一种有效的测试方法。如果是，
WHERE 子句中的 SQL Server 浮点
我正在尝试查询数据库，我需要获取权重等于 60.5 的客户列表。问题是 60.5 是一个实数，我以前从未在 where 子句中使用实数查询过数据库。我已经尝试过这个: SELECT Name FRO
java - 浮点 setter 设置任意分数
这是我的“ProjectEntity”类中的代码部分(我在其中使用 hibernate 进行 SQL 调用) @Column(name = "BUDGET") private float budget
haskell - 浮点 SMT 逻辑比实际逻辑慢吗？
我用 Haskell 编写了一个应用程序，它调用 Z3 求解器来解决一些复杂公式的约束。感谢 Haskell，我可以快速切换正在使用的数据类型。当使用 SBV 的 AlgReal 类型进行计算时，我
c - C中大写和小写双(浮点)类型说明符的区别
在 C 中 double/float 有一个集合类型说明符:%f %F %g %G %e %E .有什么区别吗 %f和 %F , %g和 %G , %e和 %E ? 根据 printf和 scanf输
java - 大量(浮点)值的最佳数据结构
我正在开发一个适用于 Android 的可视化应用程序(包括运行 Android 2.2 的旧设备)。我的应用程序的输入模型包含一个区域，该区域通常由数万个顶点组成。典型模型有 50000-1000
java - (浮点)NAN 是否有一个普遍接受的值
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 6 年前。 Improve this ques
c - 如何检查输入是数字(浮点)还是某个字符？
我被要求编写一个程序来查找我大学中两个输入的总和，因此我应该首先检查输入是否有效。例如，如果我输入 2534.11s35，程序应该检测到它不是该程序的有效输入，因为输入中存在 s。最佳答案 to
c - 浮点 Fastpow OpenCL
我正在尝试降低 FPGA 的逻辑利用率，但在网上找不到任何好的 float fastpow。我所说的“好”是指充分减少所使用的逻辑。如果我使用双版本我几乎没有什么改进。如果我使用其他依赖日志的 flo
c++ - 浮点/ double 的字符数据
我有一个 128 字节的内存位置。我尝试用从 1...127 开始的数据填充内存。我需要编写一个代码来获取两个参数，如偏移量、数据类型。根据参数，我需要将内存中的数据转换为提到的特定数据类型。举个
c++ - 可测试的无效浮点值。 (浮点 NULL)
我希望能够做到以下几点: float func() { if( error ) return InvalidFloatingPointValue; else return 0.0f;
c++ - 浮点，我可以信任多少小于/大于比较？
假设我有两个 float ，我想比较它们。如果一个大于另一个，程序应该采用一个 fork。如果情况正好相反，它应该走另一条路。并且它应该做同样的事情，如果被比较的值在一个仍然应该使它比较真实的方向上被

首页

博学

6Ren·AI

商城

cuda - 任何人都可以提供演示在 cuda 中使用 16 位浮点的示例代码吗？