gpt4 book ai didi

assembly - Intel 列出的 "throughput"是按线程还是按核心?

转载 作者:行者123 更新时间:2023-12-02 18:31:34 25 4
gpt4 key购买 nike

Intel intrinsics guide列出的吞吐量是每个线程还是每个核心?

最佳答案

按物理核心计算。

如果您在后端执行端口以外的其他方面遇到瓶颈,SMT(超线程)只会对整体吞吐量有所帮助。如果线程有时因高速缓存未命中或分支未命中而停滞,SMT 可以更接近于让执行单元接受新的微指令来启动每个时钟周期,从而实现列出的吞吐量限制。即使一个逻辑核心上的线程卡在等待某事,有两个用于无序调度的指令流可供选择也可以避免饥饿(停滞)。


请注意,您可以从 https://uops.info/ 获得有关指令计时的更多详细信息。 ,以及 https://agner.org/ 中的数字含义和/或英特尔的优化手册。

单个指令的“吞吐量”并不能告诉您它是否与其他指令竞争。例如具有 0.5c 吞吐量的 FMA 与 Haswell 和 Skylake 等 Intel CPU 上具有 1c 吞吐量的 shuffle (p5) 运行在不同的端口(p0 和 p1)上。 (如果我们谈论的是不能在辅助洗牌单元上运行的洗牌,则还有 Ice Lake。)这就是为什么查看后端 uops 更有用,有多少 uops 以及用于哪个端口 .

另请参阅

关于assembly - Intel 列出的 "throughput"是按线程还是按核心?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69352829/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com