- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我们必须实现一个 ASM 程序来乘以坐标方案格式 (COOS) 以及压缩行格式 (CSR) 的稀疏矩阵。现在我们已经实现了所有这些算法,我们想知道与通常的矩阵乘法相比,它们的性能要高多少。我们已经实现了代码来测量所有这些算法的运行时间,但现在我们决定还想知道每秒可以执行多少浮点运算 (FLOPS)。关于如何测量/计数的任何建议?
这里有一些关于所用系统的背景信息:
processor : 0
model name : ARMv7 Processor rev 2 (v7l)
Features : swp half thumb fastmult vfp edsp thumbee neon vfpv3 tls vfpd32
CPU implementer : 0x41
CPU architecture: 7
CPU variant : 0x3
CPU part : 0xc08
CPU revision : 2
我们现在的第一个想法是实现一种 FPO 计数器,我们在每次浮点运算(算术运算以及比较和移动运算)后递增,但这意味着我们必须在代码中插入递增运算这也会减慢应用程序......有谁知道是否有某种硬件计数器可以计算浮点运算的数量,或者是否有某种性能工具可用于监视我们的程序并测量 FPO 的数量。任何建议或指示将不胜感激。
下面是使用计数方法计算矩阵乘法的 FLOP。我们首先测量运行时间,然后为我们感兴趣的每条指令插入计数器,然后计算每秒的浮点运算次数。
最佳答案
看起来最接近the performance events supported by Cortex-A8是执行的指令总数,鉴于“一条指令”执行从 0 到(我认为)8 FP 操作的任何操作,这不是很有帮助。退后一步,很明显,尝试在硬件中测量算法的 FLOPS 无论如何都行不通 - 例如您可以使用 vector 操作编写一个实现,但并不总是将真实数据放在每个 vector 的所有 channel 中,然后 CPU 需要通灵才能知道它正在执行的 FP 操作实际上有多少。
幸运的是,给定算法的正式定义,计算所涉及的操作数应该相当简单(尽管不一定容易,具体取决于复杂性)。例如,在我的脑海中运行,m x n 矩阵与 n x m< 的标准朴素乘法/em> 矩阵得出 m * m * (n + n - 1)
操作(n 乘法和 (n - 1) 加法每个输出元素)。一旦纸上分析得出一个适当参数化的操作计数公式,您就可以将其引入基准测试工具来计算测试数据的数量。
一旦你完成了所有这些,你可能会开始后悔花所有的时间去做这件事,因为你将拥有的是 (arbitrary number)/(execution time)
which仅比 (execution time)
更有意义,并且主要只是使 (arbitrary number)
不同的情况之间的比较复杂化。 NEON 的性能尤其受管道延迟和内存带宽的支配,因此低级实现细节很容易超过算法可能具有的任何固有差异。
这样想:在给定的 100MHz CPU 上,a + a + b + b
总共需要 5 个周期,而 (a + b) * 2
需要总共 4 个周期* - 前者得分为 60 MFLOPS,后者仅为 50 MFLOPS。您是说更多的 FLOPS 意味着更好的性能,在这种情况下,需要 25% 更长 才能给出相同结果的例程不知何故“更好”?您是否要说更少的 FLOPS 意味着更好的性能,这对于任何合理的解释来说显然都是不正确的?或者您是否会得出结论,除了综合基准比较一个 CPU 与另一个 CPU 的理论最大带宽之外,FLOPS 对于其他任何东西都毫无意义?
* 数字是为了争论而凭空拉出来的;然而,它们实际上与 Cortex-M4F 之类的东西相距不远——一种单精度 FPU,其中加法和乘法都是单周期的,再加上一两个寄存器风险。
关于c - 确定我们的 ASM 程序的 FLOPS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28142923/
我来自这个线程:FLOPS Intel core and testing it with C (innerproduct) 当我开始编写简单的测试脚本时,我想到了几个问题。 为什么是 float ?我
我如何测量 FLOPS或 IOPS ?如果我测量普通浮点加法/乘法的时间,它是否等同于 FLOPS? 最佳答案 FLOPS 是每秒的浮点运算。要测量 FLOPS,您首先需要执行此类操作的代码。如果你有
我的系统: 系统规范:Intel core2duo E4500 3700g内存二级缓存2M x64 fedora 17 我如何测量 flops/mflops 好吧,我使用 papi 库(读取硬件性能计
我正在对一个 GPU(无法透露是哪个)进行建模以估计 OpenCL 和 OpenGL 应用程序的性能,该模型可以合理地估计正在执行的应用程序/内核/代码的 FLOPS 有没有办法从FLOPS,还是对帧
我想知道 Tensorflow 卷积层中浮点运算的数量。 当我等待这个功能在 TF 2.x 上发布时,我在 TF 1.x 上进行了尝试,结果我不明白它是如何计算的,其中之一非常糟糕令人印象深刻(检查第
为了测量 CPU 的峰值 FLOPS 性能,我编写了一个小的 C++ 程序。但是测量结果给我的结果比我的 CPU 的理论峰值 FLOPS 大。怎么了? 这是我写的代码: #include #incl
我想知道快速傅里叶变换 (FFT) 执行了多少 FLOPS。 所以,如果我有一个 1 维数组,包含 N 个 float ,我想计算这组数字的 FFT,有多少 FLOPS 需要执行吗? 我知道这取决于所
数学库经常根据 FLOPS 进行比较。当我看到 FLOPS 与大小的关系图以及几个不同数学库的点集时,向我传达了什么信息? 如果比较相同算法的两个实现或两个不同硬件上的相同软件,FLOPS 作为性能衡
如何计算应用程序的 FLOPS?如果我有执行指令的总数,我可以将它除以执行时间。但是,如何统计执行的指令数呢? 我的问题很笼统,非常感谢任何语言的回答。但我希望为我的应用程序找到一个由 C/C++ 和
我想计算 LeNet-5 ( paper) 的每一层需要多少触发器。一些论文总共给出了其他架构的 FLOPs(1,2,3)但是,这些论文没有详细说明如何计算 FLOPs 的数量,我不知道有多少 FLO
我能得到的最接近的例子是在这个问题中找到的:https://github.com/tensorflow/tensorflow/issues/899 使用这个最小的可重现代码: import tenso
我想计算图形硬件的理论峰值性能。嗯,其实我想了解一下计算。 以 AMD Radeon HD 6670 为例:AMD Accelerated Parallel Processing Programmin
我被要求测量一个在多 CPU 系统上求解微分方程的 Fortran 程序的性能。我的雇主坚持要求我测量 FLOP/s(每秒 float 操作)并将结果与基准进行比较( LINPACK ),但我不相
Microsoft's Parallel Programming whitepaper描述了在各种 FLOPS 阈值下最优的情况,并且 FLOPS 率是关于何时应使用特定实现的决策点。 如何测量应用程
我被要求测量一个在多 CPU 系统上求解微分方程的 Fortran 程序的性能。我的雇主坚持要求我测量 FLOP/s(每秒 float 操作)并将结果与基准进行比较( LINPACK ),但我不相
我一直在关注 OpenCL 的一些教程,很多时候人们用 FLOPS 来说话.维基百科确实解释了公式,但没有说明它的实际含义?例如,1光年= 9.4605284 × 10^15米,其实就是光在一年中行进
我的问题是我得到了一个长度为 l 的数组。 假设这是我的数组:[1,5,4,2,9,3,6] 我们称它为 A。 这个数组可以有多个子数组,子数组的节点彼此相邻。所以我们可以有 [1,5,4] 或 [2
我们必须实现一个 ASM 程序来乘以坐标方案格式 (COOS) 以及压缩行格式 (CSR) 的稀疏矩阵。现在我们已经实现了所有这些算法,我们想知道与通常的矩阵乘法相比,它们的性能要高多少。我们已经实现
我想编写一个 go 程序来对我的 CPU 进行基准测试并计算出我的笔记本电脑的 GFLOPS。 func benchmarkFlopTime(){ num_operations := int(
如何在现代 x86-64 Intel CPU 上实现每周期 4 次浮点运算( double )的理论峰值性能? 据我了解,SSE 需要三个周期add mul 的五个周期在大多数现代 Intel CPU
我是一名优秀的程序员,十分优秀!