gpt4 book ai didi

neon - ARM NEON 上的最佳指令吞吐量

转载 作者:行者123 更新时间:2023-12-04 18:32:12 27 4
gpt4 key购买 nike

用 ARM-NEON 编码的计算密集型算法的最佳指令吞吐量是多少?

例如,如果我有一个基于大量 8 位 -> 8 位操作的简单算法,那么可以维持的最快执行速度(以每个周期的 8 位操作衡量)是多少我们假设任何内存 I/O 的完全延迟隐藏。

我最初对 Cortex-A8 感兴趣,但如果您也有不同处理器的数据,请注意差异。

最佳答案

正如 nobar 所提到的,这将根据微架构(三星/苹果/高通)等而有所不同。但是基本上(股票 A8 实现)NEON 是一个 64 位架构,有两个(或一个) 64 位操作数给出 64 位结果。因此,在没有任何流水线(数据相关性)停顿或 I/O 停顿的情况下,整数流水线可以以 SIMD 方式在每个周期执行 8 个 8 位操作。因此,对于 ALU/Mult 操作来说,单一问题的库存臂处理器的最佳情况可能是“8”。

你可以看看ARM architecture reference了解各种指令在现有 ARM A8 处理器上需要多长时间。如果您不熟悉术语,“D”寄存器是 64 位,“Q”是双宽 128 位寄存器,指令可以将寄存器中的数据视为 8、16 或 32 位格式。

通过 TI's A8 NEON Architecture 可以很好地了解现有的 A8 架构。页面。

特别是关于处理器之间的差异,许多 ARM 实现者不公开他们的架构细节,除非是非常强大的客户,因此要注意这些差异相当困难,但正如 Stephen Canon 在下面指出的那样,较新的高端 A15-ish对于某些类型的指令,那些可能会使性能提高一倍,而对于某些类型的指令,较低功率的可能会使性能减半。

关于neon - ARM NEON 上的最佳指令吞吐量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21994249/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com