performance - 如何获得 Intel Xeon E5-2690 GFlop/s 的峰值性能？-6ren

performance - 如何获得 Intel Xeon E5-2690 GFlop/s 的峰值性能？

转载作者：行者123 更新时间：2023-12-04 11:53:49

25

4

我能够在此 Processor Comparison 中找到至强 E5-2690 的理论 DP 峰值性能 371 GFlop/s (有趣的是，在英特尔的竞争对手中找到此信息比在英特尔支持页面本身更容易)。但是，当我尝试推导出峰值性能时，我的推导不匹配:

Xeon E5-2690 每个核心的频率(在 Turbo 模式下)= 3.8Ghz

处理器可以做add和 mul每个周期的操作所以我们得到:3.8 x 2 = 7.6

鉴于它具有 AVX 支持，它每个周期可以执行 4 次双重操作:7.6 x 4 = 30.4

最后，它有 8 个内核，因此我们得到: 8 x 30.4 = 243.2

因此，Gflop/s 的峰值性能将是 243.2 GFlop/s 而不是 371 GFlop/s？

最佳答案

Turbo Mode不用于计算Theoretical Peak Performance ，你必须考虑这样的事情:

CPU 速度 = 2.9 GHz

CPU 核心数 = 8

每个周期的 CPU 指令 = 8(考虑 AVX-256 -> 256 位单元，可以容纳 8 个单精度值)x 2(如您所说的加和乘运算)= 16

放在一起:

2.9x8x16 = 371 GFlops/s

关于performance - 如何获得 Intel Xeon E5-2690 GFlop/s 的峰值性能？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19134375/

25

4

0

文章推荐： R&Excel : Creating Pivot Tables & Slicers

文章推荐： C: 指针混淆

c++ - Xeon 每次内存访问会将多少字节带入缓存？
我正在开发一个系统，用 C++ 编写，在 Linux 上的 Xeon 上运行，它需要尽可能快地运行。 RAM 中有一个超过 10 GB 的大型数据结构(基本上是一个结构数组)，其中的元素需要定期访问。
c - 是否可以将字符串数组卸载到 Xeon Phi
我想获取 xeon phi 上字符串的所有子字符串首先，我从 args 读取一个 txt 文件并将其存储到这样的指针数组中 char *temp_string[N_ELEMENT]; 其次，我想使用
c - 高值段错误 (Xeon Phi)
我正在通过 Stampede 使用 Xeon Phi 解决 Collatz 猜想问题。我已经测试过我的代码，对于高达 100,000 的值可以正常工作，但是测试高达 100 万的值时，我几乎立即收
c++ - Xeon phi 卸载模式如何利用线程并行性和矢量化
我正在使用带卸载功能的 cilk plus 在 Xeon phi 上进行一些性能测试。在一个简单的 vector 加法程序中，我有两种方法: 使用 cilk_for 将任务拆分到 Xeon phi
c# - 如何使用2*Xeon E5的电源？
我有两台服务器，一台运行一个 E3-1220 处理器，另一台运行两个 E5-2640 处理器。 http://ark.intel.com/compare/52269,64591 问题是两个处理器服务器
R 并行处理与 Xeon Phi，最小的代码更改？
考虑购买一对 Xeon Phi 5110P，但试图估计我需要更改多少代码或需要其他软件。目前我善用R在多核 Windows 机器(24 核)上使用 foreach包，传递给其他包forecast ,
intel - 我们可以在 Xeon Phi 上进行并发卸载吗
在 Nvidia GPU 上，我们可以通过使用 Streams 让多个内核同时运行。至强 Phi 怎么样？如果我通过不同的线程卸载两部分计算代码，它们会在至强融核上并发运行吗？最佳答案是的，您可以
caching - Intel Xeon CPU 如何写入内存？
我试图在两种算法之间做出决定。一个将 8 个字节(两个对齐的 4 字节字)写入 2 个缓存线，另一个写入 3 个完整的缓存线。如果 CPU 仅将更改后的 8 字节写回内存，则第一种算法使用的内存带宽
c - 在两个相同的Skylake Xeon Gold 6154系统上测得的不同的内核间延迟
我们一直在使用两个完全相同的软件(Centos 7 OS和BIOS设置)使用相同的Skylake服务器。除延迟性能外，其他所有内容都相同。我们的软件正在使用AVX512。在测试中，我注意到AVX51
c++ - 非常适合 Xeon-phi 众核架构的应用程序
从这里https://software.intel.com/en-us/videos/purpose-of-the-mic-architecture我了解具有复杂或大量随机内存访问的应用程序不太适合
c++ - Intel Xeon Phi 上的动态内存变慢
我正在创建一个简单的矩阵乘法程序，在 Intel Xeon Phi 架构上运行。该程序如下所示(参数为 A、B、C)，时序不包括初始化: //start timing for(int i = 0; i
c++ - 如何将单个应用程序的特定线程卸载到特定的 Xeon Phi 内核？
假设我有一个在主机上运行的 c/c++ 应用程序。主机 CPU 上运行的线程很少，Xeon Phi 内核上运行的线程有 50 个。我如何确保这 50 个中的每一个都在其自己的 Xeon Phi 核心
linux - 不支持 Intel Xeon 硬件缓存事件
我正在尝试使用 perf 工具来测量某些程序的性能。由于某种原因 perf stat 不支持硬件缓存事件。我使用的是英特尔至强 e5-2620 (haswell) 处理器。我在一些论坛上读到，该 cp
linux - 在用户空间中读取 Intel Xeon 的性能计数器
我想在用户空间中使用 shell 脚本读取英特尔至强的性能计数器。 Oprofile 无法工作，因为它太死板，无法满足我的要求。我正在使用 FC13。谢谢最佳答案 Perf 将允许您选择所需的计数器
c - Intel Xeon Phi 上的快速人口统计
我正在 Intel Xeon® Phi® 上实现超快的 popcount，因为它是各种生物信息学软件的性能热点。我已经实现了五段代码， #if defined(__MIC__) #include
c - 如何在 Xeon Phi 中传递结构以卸载
我有一个 struct A，其中包含一些 int 和一个 int * 成员。我如何在卸载中使用它？我可能无法执行#pragma offload target(mic: 0) inout(A){}..
vectorization - Xeon Phi 上的 loaddup_pd/unpacklo_pd
如果我在 512 宽 SIMD 向量中有以下 double ，如在 Xeon Phi 寄存器中: m0 = |b4|a4|b3|a3|b2|a2|b1|a1| 有没有可能变成: m0_d = |a4|
intel-mic - Xeon phi 5110p 上的卸载守护进程
我知道 Intel Xeon phi 协处理器 SE10X 有 61 个内核建议仅使用 60 个核心，因为 1 个核心用于卸载守护程序。另外，由于intel xeon phi协处理器5110P有60个
erlang - 在 Xeon Phi 上运行 Erlang
如何编译虚拟机并在 Intel Xeon Phi 上运行 Erlang 程序协处理器？最佳答案 Intel Xeon Phi 不是典型的 x86_64 架构，因此不可能在其上运行官方的 Erlang
gcc - 在 Xeon Phi 上使用 GCC
有人告诉我可以在 MIC 上运行一个用 gcc 构建的程序。这是真的吗？如果是，如何进行？我使用的是 gcc 4.4.7 版。最佳答案英特尔至强融核确实可以运行使用 gcc 交叉编译器编译的

首页

博学

6Ren·AI

商城

performance - 如何获得 Intel Xeon E5-2690 GFlop/s 的峰值性能？