gpt4 book ai didi

cuda - 如果IPC为1,GPU的32位ALU在一个周期内可以进行多少次8位运算?

转载 作者:行者123 更新时间:2023-12-05 01:04:03 31 4
gpt4 key购买 nike

它可以每个周期执行四个 8 位操作(SIMD 操作)还是只执行一个?按照惯例,较高位设为零,8 位被视为 32 位字,其较高位为零以执行此类操作。目前处理器中是否有任何可用的硬件功能可以帮助每个周期执行更多数量的低位操作(尤其是在 NVIDIA GPU 中)?

最佳答案

据我所知,GPU 上没有任何“可以在一个周期内在 GPU 的 32 位 ALU 上执行”的算术指令。GPU 上的大多数算术功能单元都是流水线 resulting in latencies of around 5-25 clock cycles .一个单元可以每个时钟向它发出一个新操作,它可以每个时钟退出一个操作,但它不能“在一个周期内”执行一个操作。

GPU 有 simd vector intrinsics ,其中一些与您所描述的相似。 throughput of these将因特定 GPU 类型和特定操作类型而异。

因此,例如,在开普勒上,vabsdiff4 SIMD 内在函数(它对打包到 32 位字中的 4 字节向量进行四次 8 位算术运算)的吞吐量应该与 32 位整数运算(加、减等)的吞吐量大致相同。大多数其他 SIMD 内部函数的吞吐量较低。

关于cuda - 如果IPC为1,GPU的32位ALU在一个周期内可以进行多少次8位运算?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30626708/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com