- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
它可以每个周期执行四个 8 位操作(SIMD 操作)还是只执行一个?按照惯例,较高位设为零,8 位被视为 32 位字,其较高位为零以执行此类操作。目前处理器中是否有任何可用的硬件功能可以帮助每个周期执行更多数量的低位操作(尤其是在 NVIDIA GPU 中)?
最佳答案
据我所知,GPU 上没有任何“可以在一个周期内在 GPU 的 32 位 ALU 上执行”的算术指令。GPU 上的大多数算术功能单元都是流水线 resulting in latencies of around 5-25 clock cycles .一个单元可以每个时钟向它发出一个新操作,它可以每个时钟退出一个操作,但它不能“在一个周期内”执行一个操作。
GPU 有 simd vector intrinsics ,其中一些与您所描述的相似。 throughput of these将因特定 GPU 类型和特定操作类型而异。
因此,例如,在开普勒上,vabsdiff4
SIMD 内在函数(它对打包到 32 位字中的 4 字节向量进行四次 8 位算术运算)的吞吐量应该与 32 位整数运算(加、减等)的吞吐量大致相同。大多数其他 SIMD 内部函数的吞吐量较低。
关于cuda - 如果IPC为1,GPU的32位ALU在一个周期内可以进行多少次8位运算?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30626708/
为什么是 slt被认为是 ALU 操作?我认为它只会做一个减法然后从 ALU 得到 *Z*ero 输出? ALU 控制线 |功能 -------------------+---------------
首先,如果这不是发布此问题的正确位置,请原谅我,但我不确定它应该去哪里。我目前正在使用 VHDL 在 Xilinx 中模拟 ALU。 ALU 具有以下输入和输出: 输入 A 和 B:两个 8 位操作数
我想知道是否有一种仅使用 ALU 运算符(NOT、OR、AND、XOR、ADD、SUB)对 8 位二进制值执行右移的有效方法 Example: input: 00110101 output: 100
我正在用 Verilog 设计一个 ALU,其中包含一个组合 always block 和每个 opcode 的 case。在 NOOP 的情况下,什么都不应该发生,所以我只是设置 result =
addiu $6,$6,5 bltz $6,$L5 nop ... $L5: 如果没有停顿,这如何安全?传统的 MIPS 甚至无法做到这一点,
我必须创建一个 ALU,它具有添加、添加无符号、子、子无符号和、或、异或、nor、slt 和 slt 无符号的条件。我很难实现包含未签名条件的设计。我已经在代码中指出发生错误的地方。此外,ALU 的所
我应该用 VHDL 编写一个简单的 32 位 Alu。一切正常,除了两件事。 ALU 应该有一个进位和溢出标志,但我不知道如何实现它。 首先是一个一般性问题。电路图显示,对于减法,ALU 反转减数并添
我应该用 VHDL 编写一个简单的 32 位 Alu。一切正常,除了两件事。 ALU 应该有一个进位和溢出标志,但我不知道如何实现它。 首先是一个一般性问题。电路图显示,对于减法,ALU 反转减数并添
我想更好地理解向量处理图形 (VPU)、浮点单元、图形处理单元和算术和逻辑单元之间的区别。 我知道在 CPU 内部有一个 FPU 和一个 ALU,但对于 GPU 也是如此吗? 那么 VPU 与 GPU
我正在尝试制作一个带有溢出标志的简单 32 位 ALU,然后将 ALU 的输入和结果输出到屏幕,但我在连接测试台的元素时遇到了一些问题。我收到此错误: test_32bALU.v:15: error:
虽然我标记了这个作业,但它实际上是我自己免费做的一门类(class)。不管怎样,这门类(class)叫做“从 Nand 到俄罗斯方 block ”,我希望这里有人看过或参加过这门类(class),这样
根据AVR微 Controller 的数据表,以及AVR架构的指令集数据表,某些指令,例如ADD,可以在执行期间获取存储在GP寄存器中的2个操作数仅 1 个时钟转换至 ALU。 ADD 指令的指令字包
我为 ALU 创建了一个 Verilog 文件,它具有以下操作:加、减、AND 和重置。然后,我用 Avalon 内存从接口(interface)封装了 ALU,以便 ARM 处理器可以通过 H2F
我是一名优秀的程序员,十分优秀!