- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我来自这个线程:FLOPS Intel core and testing it with C (innerproduct)
当我开始编写简单的测试脚本时,我想到了几个问题。
为什么是 float ?我们必须考虑的 float 有何重要意义?为什么不是简单的 int?
如果我想测量 FLOPS,假设我正在计算两个 vector 的内积。这两个 vector 必须是 float[] 吗?如果我使用 int[],测量会有什么不同?
我不熟悉英特尔架构。假设我有以下操作:
float a = 3.14159; float b = 3.14158;
for(int i = 0; i < 100; ++i) {
a + b;
}
这是多少个“浮点运算”?
我有点困惑,因为我研究了一个简化的 32 位 MIPS 架构。对于每条指令,有 32 位,例如操作数 1 有 5 位,操作数 2 有 5 位等。所以对于英特尔架构(特别是与前一个线程相同的架构),我被告知寄存器可以容纳 128 位。对于单精度 float ,每个 float 32 位,这是否意味着对于提供给处理器的每条指令,它可能需要 4 float 字?难道我们还必须考虑操作数和指令其他部分中涉及的位吗?我们怎么能在没有任何特定意义的情况下将 4 个 float 提供给 cpu?
我不知道我将所有事情都点点滴滴地思考的方法是否有意义。如果不是,我应该看什么“高度”的视角?
最佳答案
1.) 浮点运算仅表示比固定宽度整数更广泛的数学运算。此外,大量数字或科学应用程序(通常是实际测试 CPU 的纯计算能力的应用程序)可能比任何东西都更依赖浮点运算。
2.) 它们都必须是 float 的。 CPU 不会将整数和 float 相加,一个或另一个会隐式转换(整数很可能会转换为 float ),因此它仍然只是浮点运算。
3.) 那将是 100 个浮点运算,以及 100 个整数运算,以及一些(100?)控制流/分支/比较运算。通常也会有加载和存储,但你似乎没有存储值:)
4.) 我不确定如何从这个开始,您似乎对 Material 有一个大致的了解,但您混淆了一些细节。是的,可以将单个指令分成类似于以下部分:
|OP CODE | Operand 1 | Operand 2 | (among many, many others)
但是,操作数 1 和操作数 2 不必包含要相加的实际值。它们可以只包含要添加的寄存器。以这条 SSE 指令为例:
mulps %%xmm3, %%xmm1
它告诉执行单元将寄存器xmm3 的内容与xmm1 的内容相乘,并将结果存储在xmm3 中。由于寄存器保存 128 位值,我正在对 128 位值执行操作,这与指令的大小无关。不幸的是,x86 没有与 MIPS 类似的指令分解,因为它是 CISC 架构。一条 x86 指令的长度可以在 1 到 16(!) 字节之间。
至于您的问题,我认为了解这些都是非常有趣的东西,它可以帮助您建立对数学密集型程序速度的直觉,并让您了解优化时要达到的上限。不过,我绝不会尝试将其与程序的实际运行时间直接相关联,因为太多其他因素会影响实际的最终性能。
关于c - FLOPS 什么是真正的 FLOP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1541725/
我来自这个线程:FLOPS Intel core and testing it with C (innerproduct) 当我开始编写简单的测试脚本时,我想到了几个问题。 为什么是 float ?我
我如何测量 FLOPS或 IOPS ?如果我测量普通浮点加法/乘法的时间,它是否等同于 FLOPS? 最佳答案 FLOPS 是每秒的浮点运算。要测量 FLOPS,您首先需要执行此类操作的代码。如果你有
我的系统: 系统规范:Intel core2duo E4500 3700g内存二级缓存2M x64 fedora 17 我如何测量 flops/mflops 好吧,我使用 papi 库(读取硬件性能计
我正在对一个 GPU(无法透露是哪个)进行建模以估计 OpenCL 和 OpenGL 应用程序的性能,该模型可以合理地估计正在执行的应用程序/内核/代码的 FLOPS 有没有办法从FLOPS,还是对帧
我想知道 Tensorflow 卷积层中浮点运算的数量。 当我等待这个功能在 TF 2.x 上发布时,我在 TF 1.x 上进行了尝试,结果我不明白它是如何计算的,其中之一非常糟糕令人印象深刻(检查第
为了测量 CPU 的峰值 FLOPS 性能,我编写了一个小的 C++ 程序。但是测量结果给我的结果比我的 CPU 的理论峰值 FLOPS 大。怎么了? 这是我写的代码: #include #incl
我想知道快速傅里叶变换 (FFT) 执行了多少 FLOPS。 所以,如果我有一个 1 维数组,包含 N 个 float ,我想计算这组数字的 FFT,有多少 FLOPS 需要执行吗? 我知道这取决于所
数学库经常根据 FLOPS 进行比较。当我看到 FLOPS 与大小的关系图以及几个不同数学库的点集时,向我传达了什么信息? 如果比较相同算法的两个实现或两个不同硬件上的相同软件,FLOPS 作为性能衡
如何计算应用程序的 FLOPS?如果我有执行指令的总数,我可以将它除以执行时间。但是,如何统计执行的指令数呢? 我的问题很笼统,非常感谢任何语言的回答。但我希望为我的应用程序找到一个由 C/C++ 和
我想计算 LeNet-5 ( paper) 的每一层需要多少触发器。一些论文总共给出了其他架构的 FLOPs(1,2,3)但是,这些论文没有详细说明如何计算 FLOPs 的数量,我不知道有多少 FLO
我能得到的最接近的例子是在这个问题中找到的:https://github.com/tensorflow/tensorflow/issues/899 使用这个最小的可重现代码: import tenso
我想计算图形硬件的理论峰值性能。嗯,其实我想了解一下计算。 以 AMD Radeon HD 6670 为例:AMD Accelerated Parallel Processing Programmin
我被要求测量一个在多 CPU 系统上求解微分方程的 Fortran 程序的性能。我的雇主坚持要求我测量 FLOP/s(每秒 float 操作)并将结果与基准进行比较( LINPACK ),但我不相
Microsoft's Parallel Programming whitepaper描述了在各种 FLOPS 阈值下最优的情况,并且 FLOPS 率是关于何时应使用特定实现的决策点。 如何测量应用程
我被要求测量一个在多 CPU 系统上求解微分方程的 Fortran 程序的性能。我的雇主坚持要求我测量 FLOP/s(每秒 float 操作)并将结果与基准进行比较( LINPACK ),但我不相
我一直在关注 OpenCL 的一些教程,很多时候人们用 FLOPS 来说话.维基百科确实解释了公式,但没有说明它的实际含义?例如,1光年= 9.4605284 × 10^15米,其实就是光在一年中行进
我的问题是我得到了一个长度为 l 的数组。 假设这是我的数组:[1,5,4,2,9,3,6] 我们称它为 A。 这个数组可以有多个子数组,子数组的节点彼此相邻。所以我们可以有 [1,5,4] 或 [2
我们必须实现一个 ASM 程序来乘以坐标方案格式 (COOS) 以及压缩行格式 (CSR) 的稀疏矩阵。现在我们已经实现了所有这些算法,我们想知道与通常的矩阵乘法相比,它们的性能要高多少。我们已经实现
我想编写一个 go 程序来对我的 CPU 进行基准测试并计算出我的笔记本电脑的 GFLOPS。 func benchmarkFlopTime(){ num_operations := int(
如何在现代 x86-64 Intel CPU 上实现每周期 4 次浮点运算( double )的理论峰值性能? 据我了解,SSE 需要三个周期add mul 的五个周期在大多数现代 Intel CPU
我是一名优秀的程序员,十分优秀!