- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我对使用 Sandy-Bridge 和 Haswell 可以完成每个内核每个周期的触发器感到困惑。
根据我对 SSE 的理解,SSE 的每个内核每个周期应该是 4 个触发器,AVX/AVX2 的每个内核每个周期应该是 8 个触发器。
这似乎在这里得到验证,
How do I achieve the theoretical maximum of 4 FLOPs per cycle?
,和这里,
Sandy-Bridge CPU specification .
然而,下面的链接似乎表明 Sandy-bridge 每个内核每个周期可以执行 16 个触发器,Haswell 每个内核每个周期可以执行 32 个触发器
http://www.extremetech.com/computing/136219-intels-haswell-is-an-unprecedented-threat-to-nvidia-amd .
谁可以给我解释一下这个?
编辑:
我现在明白为什么我感到困惑了。我认为术语 FLOP 仅指单浮点 (SP)。我现在看到 How do I achieve the theoretical maximum of 4 FLOPs per cycle? 处的测试实际上在双浮点 (DP) 上,因此它们为 SSE 实现了 4 DP FLOPs/cycle,对于 AVX 实现了 8 DP FLOPs/cycle。在 SP 上重做这些测试会很有趣。
最佳答案
以下是一些最近的处理器微架构的理论最大 FLOP 计数( 每核 )以及如何实现它们的说明。
一般来说,要计算这个查找 FMA 指令的吞吐量,例如在 https://agner.org/optimize/或任何其他微基准测试结果,然后乘以(FMAs per clock) * (vector elements / instruction) * 2 (FLOPs / FMA)
.
请注意,在实际代码中实现这一点需要非常仔细的调整(如循环展开),并且缓存未命中接近于零,并且在其他任何方面都没有瓶颈。现代 CPU 具有如此高的 FMA 吞吐量,以至于其他指令没有太多空间来存储结果或为它们提供输入。例如每个时钟 2 个 SIMD 负载也是大多数 x86 CPU 的限制,因此点积将在每 1 个 FMA 2 个负载上出现瓶颈。不过,经过仔细调整的密集矩阵乘法可以接近实现这些数字。
如果您的工作负载包括任何无法收缩到 FMA 中的 ADD/SUB 或 MUL,则理论上的最大数量不是您工作负载的合适目标。 Haswell/Broadwell 有 2 个每时钟 SIMD FP 乘法(在 FMA 单元上),但每个时钟只有 1 个 SIMD FP 加法(在具有较低延迟的单独矢量 FP 加法单元上)。 Skylake 放弃了单独的 SIMD FP 加法器,以 4c 延迟、每时钟 2 个吞吐量、对于任何向量宽度运行相同的 add/mul/fma。
英特尔
请注意,最近的微架构的赛扬/奔腾版本不支持 AVX 或 FMA 指令,仅支持 SSE4.2。
英特尔酷睿 2 和 Nehalem (SSE/SSE2):
关于cpu - 沙桥和 haswell SSE2/AVX/AVX2 的每个周期的 FLOPS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15655835/
已关闭。这个问题是 off-topic 。目前不接受答案。 想要改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 已关闭10 年前。 Improve th
我正在尝试将 JSON 发送到我的服务器并作为结果检索 JSON。例如发送用户名和密码并取回 token 和其他内容。 这就是我正在为发送的 HTTP 请求所做的。我现在如何检索同一请求中的内容?
我有以下 xts 矩阵: > options(digits.secs = 6) > set.seed(1234) > xts(1:10, as.POSIXlt(1366039619, tz="EST"
我目前正在开发一个应用程序,当用户到达某个位置时,它会提醒用户。我希望这个应用程序也在后台运行并搜索解决方案。 在 AppStore 中,我发现了一款名为“Sleep Cycle”的应用程序,它可
我想创建一个基于 farbtastic color picker 的颜色选择器。我想要实现的是添加我想要链接到色轮的 RGB slider 。这是我到目前为止所拥有的。 app.controller(
RFC 5545 允许 RDATE 属性具有 PERIOD 数据类型。该数据类型的语义是什么?据我所知,这是未指定的。它会改变事件的持续时间吗?如果时区更改且没有持续时间怎么办? 最佳答案 尽管我
在 CodinGame学习平台,C# 教程中用作示例的问题之一是: The aim of this exercise is to check the presence of a number in a
我听说网上有一本英特尔书,它描述了特定汇编指令所需的 CPU 周期,但我找不到(经过努力)。谁能告诉我如何找到CPU周期? 这是一个例子,在下面的代码中,mov/lock 是 1 个 CPU 周期,x
据我所知,Java GC有次要GC(低成本)和主要GC周期(高成本)。如果对象在本地范围内,则会在 Minor GC 中清理它。如果对象的引用存储在代码中的其他位置,则它会在主 GC 中被清除。 例如
到目前为止,我有一个很好的自旋锁,可以用作 intendend: std::atomic_flag barrier = ATOMIC_FLAG_INIT; inline void lo
晚上好,我将 cycle2 与 prev 和 next 函数一起使用,但我无法将 prev 和 next 函数置于图像下方的中心。我环顾四周,我知道这会很愚蠢,但我就是看不到它。非常令人沮丧。谢谢加里
出于教育目的,我想知道在优化(在不同级别)和编译之后执行函数需要多少 CPU 周期。有没有办法分析代码或可执行文件以获得可重现的答案?我在 64 位 Windows 7 Pro 上使用 Eclipse
我想彻底测量和调整我的 C/C++ 代码,以便在 x86_64 系统上更好地使用缓存。我知道如何使用计数器(我的 Windows 机器上的 QueryPerformanceCounter)来测量时间,
我尝试将一些数据分组到每四周一次的存储桶中,并使用 pd.Grouper(key='created_at', freq='4W')。我希望这些组是这样的,如果我有从 2019-08-26 到 2019
我正在做一个关于随机数的大型学校项目,但我找不到 Math.random() 的句点。我安装了 7.0.800.15 版本,并且正在使用 Windows 10 计算机。我试过用一个简单的程序来确定周期
我正在努力解决我们生产环境中垃圾收集利用率高的问题,我想知道设置一个大的堆大小来保证老年代永远不会被填满是否会阻止触发主要的 GC 周期。 为了实现这一点,我想有一个特定的阈值标记会触发主要的 GC
我想测量在 Python 3 中执行加法运算所需的时钟周期数。 我写了一个程序来计算加法运算的平均值: from timeit import timeit def test(n): for i
我正在寻找一种方法来测量线程上的函数调用所花费的 cpu 周期。 示例伪代码: void HostFunction() { var startTick = CurrentThread.Cur
就 CPU 周期而言,malloc() 的成本是多少?(Vista/OS,最新版本的 gcc,最高优化级别,...) 基本上,我正在实现一个复杂的 DAG 结构(类似于链表)由一些 16B(不太常见)
C/C++ 中的类型转换会导致额外的 CPU 周期吗? 我的理解是,至少在某些情况下应该消耗额外的 CPU 周期。就像从浮点类型转换为整数一样,CPU 需要将浮点结构转换为整数。 float a=2.
我是一名优秀的程序员,十分优秀!