gpt4 book ai didi

performance - 最近几代 CPU 架构的每个周期加载/存储

转载 作者:行者123 更新时间:2023-12-02 09:18:02 29 4
gpt4 key购买 nike

灵感来自 this answer

FLOPS per cycle for sandy-bridge and haswell SSE2/AVX/AVX2

对于 Sandy/Ivy Bridge、Broad/Haswell、Sky/Kaby Lake,可以在一个核心上发布的 just-loads/loads-and-stores 数量是多少?同样有趣的是 AMD Bulldozer、Jaguar 和 Zen 的数量。

PS - 我知道由于高速缓存/内存带宽的原因,这可能不是一个可持续的速率,我只是在问问题。

最佳答案

基于以下信息:

Sandy/Ivy:每个周期,2 次加载,或 1 次加载和 1 次存储。 256 位加载和存储计数加倍,但仅限于加载或存储本身 - 它仍然只有一个地址,因此 AGU 在下一个周期再次可用。通过混合一些 256b 操作,您仍然可以在每个周期获得 2x 128b 加载和 1x 128b 存储。

Haswell/Broadwell:2 次加载 一个存储,而 256 位加载/存储算双倍。端口7(store AGU)只能处理简单地址计算(base+const,无索引),复杂的情况会去p2/p3并与负载竞争,简单的情况可能会竞争但至少不要不必

Sky/Kaby:和Broadwell一样

推土机:2 装载,或 1 装载和 1 存储。 256 位加载和存储计数加倍。

Jaguar:1 次加载或 1 次存储,256 位加载和存储计数加倍。到目前为止,这是该列表中最差的一个,因为它是列表中唯一的低功耗 µarch。

Ryzen:2 次加载,或 1 次加载和 1 次存储。 256 位加载和存储计数加倍。

关于performance - 最近几代 CPU 架构的每个周期加载/存储,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45106951/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com