- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我们必须实现一个 ASM 程序来乘以坐标方案格式 (COOS) 以及压缩行格式 (CSR) 的稀疏矩阵。现在我们已经实现了所有这些算法,我们想知道与通常的矩阵乘法相比,它们的性能要高多少。我们已经实现了代码来测量所有这些算法的运行时间,但现在我们决定还想知道每秒可以执行多少浮点运算 (FLOPS)。关于如何测量/计数的任何建议?
这里有一些关于所用系统的背景信息:
processor : 0
model name : ARMv7 Processor rev 2 (v7l)
Features : swp half thumb fastmult vfp edsp thumbee neon vfpv3 tls vfpd32
CPU implementer : 0x41
CPU architecture: 7
CPU variant : 0x3
CPU part : 0xc08
CPU revision : 2
我们现在的第一个想法是实现一种 FPO 计数器,我们在每次浮点运算(算术运算以及比较和移动运算)后递增,但这意味着我们必须在代码中插入递增运算这也会减慢应用程序......有谁知道是否有某种硬件计数器可以计算浮点运算的数量,或者是否有某种性能工具可用于监视我们的程序并测量 FPO 的数量。任何建议或指示将不胜感激。
下面是使用计数方法计算矩阵乘法的 FLOP。我们首先测量运行时间,然后为我们感兴趣的每条指令插入计数器,然后计算每秒的浮点运算次数。
最佳答案
看起来最接近the performance events supported by Cortex-A8是执行的指令总数,鉴于“一条指令”执行从 0 到(我认为)8 FP 操作的任何操作,这不是很有帮助。退后一步,很明显,尝试在硬件中测量算法的 FLOPS 无论如何都行不通 - 例如您可以使用 vector 操作编写一个实现,但并不总是将真实数据放在每个 vector 的所有 channel 中,然后 CPU 需要通灵才能知道它正在执行的 FP 操作实际上有多少。
幸运的是,给定算法的正式定义,计算所涉及的操作数应该相当简单(尽管不一定容易,具体取决于复杂性)。例如,在我的脑海中运行,m x n 矩阵与 n x m< 的标准朴素乘法/em> 矩阵得出 m * m * (n + n - 1)
操作(n 乘法和 (n - 1) 加法每个输出元素)。一旦纸上分析得出一个适当参数化的操作计数公式,您就可以将其引入基准测试工具来计算测试数据的数量。
一旦你完成了所有这些,你可能会开始后悔花所有的时间去做这件事,因为你将拥有的是 (arbitrary number)/(execution time)
which仅比 (execution time)
更有意义,并且主要只是使 (arbitrary number)
不同的情况之间的比较复杂化。 NEON 的性能尤其受管道延迟和内存带宽的支配,因此低级实现细节很容易超过算法可能具有的任何固有差异。
这样想:在给定的 100MHz CPU 上,a + a + b + b
总共需要 5 个周期,而 (a + b) * 2
需要总共 4 个周期* - 前者得分为 60 MFLOPS,后者仅为 50 MFLOPS。您是说更多的 FLOPS 意味着更好的性能,在这种情况下,需要 25% 更长 才能给出相同结果的例程不知何故“更好”?您是否要说更少的 FLOPS 意味着更好的性能,这对于任何合理的解释来说显然都是不正确的?或者您是否会得出结论,除了综合基准比较一个 CPU 与另一个 CPU 的理论最大带宽之外,FLOPS 对于其他任何东西都毫无意义?
* 数字是为了争论而凭空拉出来的;然而,它们实际上与 Cortex-M4F 之类的东西相距不远——一种单精度 FPU,其中加法和乘法都是单周期的,再加上一两个寄存器风险。
关于c - 确定我们的 ASM 程序的 FLOPS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28142923/
我需要处理来自旧 Mac 时代(旧摩托罗拉 CPU)的文件。字节是大端字节序,所以我有一个函数可以将 Int64 交换为英特尔小端字节序。该函数是 ASM,可在 32 位 CPU 上运行,但不能在 6
1.概述 转载:史上最通俗易懂的ASM教程 一勺思想 We are all in the gutter, but some of us are looking at the stars. (我们都生活
1.概述 转载:ASM 与 Presto 动态代码生成简介 代码生成是很多计算引擎中常用的执行优化技术,比如我们熟悉的 Apache Spark 和 Presto 在表达式等地方就使用到代码生成技术。
我想在 C++ 程序中使用 ASM 调用地址为 774a7fdch 的函数(kernel32.dll 函数) 我正在使用 Visual Studio 2010。 我该怎么做? call 774a7fd
我是否正确转换了它? 原始 VS C++ 版本: _TEB *pTeb = NULL; _asm { mov eax, fs:[0x18];
阅读自howto_add_systemcall "In general, header files for machine architecture independent system calls
在实现无锁数据结构和时序代码时,通常需要抑制编译器的优化。通常人们使用 asm volatile 和 clobber 列表中的 memory 来执行此操作,但有时您只会看到 asm volatile
这个“strcpy”函数的目的是将src的内容复制到dest,结果很好:显示两行“Hello_src”。 #include static inline char * strcpy(char * de
我正在尝试进行一些汇编编码,我从 C 语言调用函数。代码本身运行良好,但我有两个巨大的问题在很长一段时间内无法解决。第一个是语法高亮 - 我安装了两个不同的(当时一个)asm 高亮扩展到 Visual
我正在研究一些类文件分析,并且正在研究使用 ASM 来读取类。在 Javap 中,操作码以及 tagName 和 tagValue 是内联打印的,但在每个 AbstractInsnNode 中,我只看
我正在尝试弄清楚如何将 ASM 中的 DB 变量用于内联 ASM C++ 我有这个 ASM 代码: filename db "C:\imagen.bmp" eti0: mov ah,3dh mov a
这个“strcpy”函数的目的是将src的内容复制到dest,结果很好:显示两行“Hello_src”。 #include static inline char * strcpy(char * de
在 mm/memory.c 中,它包含一个文件: #include tlb.h 是 include/asm-generic/tlb.h或 arch/arm/include/asm/tlb.h ? 最
你好我找到了一个asm代码......它被集成到c++项目中 template T returned; BYTE *tem = buffer; __asm { mov eax, tem
问题:当我运行 @ 命令提示符 >tasm HelloWorld.asm 顺便说一句,我在输入文件名 HelloWorld.asm 时使用 TAB,所以没有错字.我收到这个致命的命令行错误: Turb
尝试通过 eax 从 asm proc 返回一个 long int,后来又尝试通过 dx:ax。两者都不适合我,因为 C printf 打印的数字与所需的 320L 不同。 x.asm: .model
这是 godbolt 生成的代码. 下面是 Visual Studio 在我的 main.asm 文件上生成的相同代码(通过 Project->C/C++->Output Files->Assembl
在构建具有依赖项的 giraph jar 时,我们收到以下警告.. 真的不知道如何解决这些.. 我们已经尝试过了 useProjectArtifact 为 false 和 解压为真 两者似乎都有效 任
我正在使用 gentoo 并尝试编译一个程序来控制并行端口上的位。它的顶部附近有这条线: #include 当我尝试在其上使用 gcc 时,它会产生以下输出: port.c:4:20: error:
(原帖)将 hibernate 依赖项添加到 pom.xml 时显示错误 2011-10-11 10:36:53.710::WARN: failed guiceFilter java.lang.No
我是一名优秀的程序员,十分优秀!