performance - 机器代码的精确副本运行速度比原始函数慢 50%-6ren

performance - 机器代码的精确副本运行速度比原始函数慢 50%

转载作者：行者123 更新时间：2023-12-03 16:39:27

我一直在尝试在嵌入式系统上从 RAM 和闪存执行。对于快速原型(prototype)设计和测试，我目前使用的是 Arduino Due (SAM3X8E ARM Cortex-M3)。据我所知，Arduino 运行时和引导加载程序在这里应该没有区别。

这是问题所在:我有一个用 ARM Thumb 程序集编写的函数 (calc)。 calc 计算一个数字并返回它。 (给定输入的运行时间>1s)现在我手动提取了该函数的组装机器代码，并将其作为原始字节放入另一个函数中。这两个函数都被确认驻留在闪存中(地址 0x80149 和 0x8017D，彼此相邻)。这已经通过拆卸和确认
运行时检查。

void setup() {
  Serial.begin(115200);
  timeFnc(calc);
  timeFnc(calc2);
}

void timeFnc(int (*functionPtr)(void)) {
  unsigned long time1 = micros();

  int res = (*functionPtr)();

  unsigned long time2 = micros();
  Serial.print("Address: ");
  Serial.print((unsigned int)functionPtr);
  Serial.print(" Res: ");
  Serial.print(res);
  Serial.print(": ");
  Serial.print(time2-time1);
  Serial.println("us");

}

int calc() {
   asm volatile(
      "movs r1, #33 \n\t"
      "push {r1,r4,r5,lr} \n\t"
      "bl .in \n\t"
      "pop {r1,r4,r5,lr} \n\t"
      "bx lr \n\t"

      ".in: \n\t"
      "movs r5,#1 \n\t"
      "subs r1, r1, #1 \n\t"
      "cmp r1, #2 \n\t"
      "blo .lblb \n\t"
      "movs r5,#1 \n\t"

      ".lbla: \n\t"
      "push {r1, r5, lr} \n\t"
      "bl .in \n\t"
      "pop {r1, r5, lr} \n\t"
      "adds r5,r0 \n\t"
      "subs r1,#2 \n\t"
      "cmp r1,#1 \n\t"
      "bhi .lbla \n\t"
      ".lblb: \n\t"
      "movs r0,r5 \n\t"
      "bx lr \n\t"
      ::
   ); //redundant auto generated bx lr, aware of that
}

int calc2() {
  asm volatile(
    ".word  0xB5322121 \n\t"
    ".word  0xF803F000 \n\t"
    ".word  0x4032E8BD \n\t"
    ".word  0x25014770 \n\t"

    ".word  0x29023901 \n\t"
    ".word  0x800BF0C0 \n\t"
    ".word  0xB5222501 \n\t"
    ".word  0xFFF7F7FF \n\t"
    ".word  0x4022E8BD \n\t"
    ".word  0x3902182D \n\t"
    ".word  0xF63F2901 \n\t"
    ".word  0x0028AFF6 \n\t"
    ".word  0x47704770 \n\t"
  );
}

void loop() {

}

上述程序在 Arduino Due 目标上的输出是:

Address: 524617 Res: 3524578: 1338254us
Address: 524669 Res: 3524578: 2058819us

因此，我们确认结果相等并且运行时的地址与预期一致。手动输入机器代码功能的执行速度要慢 50%。

使用 arm-none-eabi-objdump 进行反汇编进一步确认了机器代码的各自地址、闪存驻留和相等性(注意字节顺序和字节分组!):

00080148 <_Z4calcv>:
   80148:   2121        movs    r1, #33 ; 0x21
   8014a:   b532        push    {r1, r4, r5, lr}
   8014c:   f000 f803   bl  80156 <.in>
   80150:   e8bd 4032   ldmia.w sp!, {r1, r4, r5, lr}
   80154:   4770        bx  lr

00080156 <.in>:
   80156:   2501        movs    r5, #1
   80158:   3901        subs    r1, #1
   8015a:   2902        cmp r1, #2
   8015c:   f0c0 800b   bcc.w   80176 <.lblb>
   80160:   2501        movs    r5, #1

00080162 <.lbla>:
   80162:   b522        push    {r1, r5, lr}
   80164:   f7ff fff7   bl  80156 <.in>
   80168:   e8bd 4022   ldmia.w sp!, {r1, r5, lr}
   8016c:   182d        adds    r5, r5, r0
   8016e:   3902        subs    r1, #2
   80170:   2901        cmp r1, #1
   80172:   f63f aff6   bhi.w   80162 <.lbla>

00080176 <.lblb>:
   80176:   0028        movs    r0, r5
   80178:   4770        bx  lr
}
   8017a:   4770        bx  lr

0008017c <_Z5calc2v>:
   8017c:   b5322121    .word   0xb5322121
   80180:   f803f000    .word   0xf803f000
   80184:   4032e8bd    .word   0x4032e8bd
   80188:   25014770    .word   0x25014770
   8018c:   29023901    .word   0x29023901
   80190:   800bf0c0    .word   0x800bf0c0
   80194:   b5222501    .word   0xb5222501
   80198:   fff7f7ff    .word   0xfff7f7ff
   8019c:   4022e8bd    .word   0x4022e8bd
   801a0:   3902182d    .word   0x3902182d
   801a4:   f63f2901    .word   0xf63f2901
   801a8:   0028aff6    .word   0x0028aff6
   801ac:   47704770    .word   0x47704770
}
   801b0:   4770        bx  lr
    ...

我们可以进一步确认类似使用的调用约定:

00080234 <setup>:
void setup() {
   80234:   b508        push    {r3, lr}
  Serial.begin(115200);
   80236:   4806        ldr r0, [pc, #24]   ; (80250 <setup+0x1c>)
   80238:   f44f 31e1   mov.w   r1, #115200 ; 0x1c200
   8023c:   f000 fcb4   bl  80ba8 <_ZN9UARTClass5beginEm>
  timeFnc(calc);
   80240:   4804        ldr r0, [pc, #16]   ; (80254 <setup+0x20>)
   80242:   f7ff ffb7   bl  801b4 <_Z7timeFncPFivE>
}
   80246:   e8bd 4008   ldmia.w sp!, {r3, lr}
  timeFnc(calc2);
   8024a:   4803        ldr r0, [pc, #12]   ; (80258 <setup+0x24>)
   8024c:   f7ff bfb2   b.w 801b4 <_Z7timeFncPFivE>
   80250:   200705cc    .word   0x200705cc
   80254:   00080149    .word   0x00080149
   80258:   0008017d    .word   0x0008017d

我可以排除这是由于某种推测性获取(Cortex-M3 似乎有!)或中断造成的。 (编辑:不，我不能。可能是某种预取)更改执行顺序或在两者之间添加函数调用不会改变结果。这里的罪魁祸首可能是什么？

编辑:
更改机器代码函数的对齐方式(插入 nops 作为序言)后，我得到以下结果:

+16bit 用于 calc2:

Address: 524617 Res: 3524578: 1102257us
Address: 524669 Res: 3524578: 1846968us

+32bit 用于 calc2:

Address: 524617 Res: 3524578: 1102257us
Address: 524669 Res: 3524578: 1535424us

+48bit 用于 calc2:

Address: 524617 Res: 3524578: 1102155us
Address: 524669 Res: 3524578: 1413180us

+64bit 用于 calc2:

Address: 524617 Res: 3524578: 1102155us
Address: 524669 Res: 3524578: 1346606us

+80bit 用于 calc2:

Address: 524617 Res: 3524578: 1102145us
Address: 524669 Res: 3524578: 1180105us

编辑2:
仅运行计算:

Address: 524617 Res: 3524578: 1102155us

只运行 calc2:

Address: 524617 Res: 3524578: 1102257us

更改顺序:

Address: 524669 Res: 3524578: 1554160us
Address: 524617 Res: 3524578: 1102211us

编辑3:
添加 .p2align 4标签前 .in仅适用于 calc，单独执行:

Address: 524625 Res: 3524578: 1413185us

两者都与原始基准一样:

Address: 524625 Res: 3524578: 1413185us
Address: 524689 Res: 3524578: 1535424us

EDIT4:在闪存中反转位置会完全改变结果。 -> 线性预取？

最佳答案

从闪存执行代码的速度取决于每个分支目标的等待周期数和代码对齐情况。在此处理器和类似处理器(如 STM32F103)中，当内核以最高频率运行时，闪存需要 3 个等待周期。这意味着每个采用的分支可能需要 2 到 5 个周期，这可能会影响总运行时间。

为了弥补 FLASH 的速度慢，这些处理器有一个宽的 FLASH 总线和一个提取缓冲区。 SAM3X 有一对 128 位指令缓冲区，它们似乎以预取模式 [1] 填充。

要优化紧密循环，请尝试装入 32 字节代码块并将其对齐在 16 字节边界(或更好的 32 字节，以防万一)。此外，最好检查一下 FLASH 参数是否设置正确，即在此 MCU 中启用了预取并将总线宽度设置为 128 位。将代码复制到 RAM 可能是一种选择，但与正常工作的 fetch 缓冲区相比，这很痛苦并且实际上会减慢速度。

[1] http://ww1.microchip.com/downloads/en/DeviceDoc/Atmel-11057-32-bit-Cortex-M3-Microcontroller-SAM3X-SAM3A_Datasheet.pdf ，第 294 页，图 18-2、18-3。

关于performance - 机器代码的精确副本运行速度比原始函数慢 50%，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59107353/

文章推荐： powershell - 如何让 Write-Host 输出 $true

文章推荐： objective-c - cocoa @sum数组运算符太慢-替代方案？

文章推荐： objective-c - 使用 Sparkle Framework 更新时显示 .dmg EULA

java - Apache Tika - PrintWriter 适用于本地 Windows 机器，但不适用于 Linux 机器
我被难住了。如果我对文件路径进行硬编码，则此脚本在我的 Windows 机器上的 Eclipse 中运行良好。如果我尝试接受参数并在我的边缘节点(一个 linux 机器)上运行它，它不会抛出任何特定的
linux - 无法从同一 LAN 上的 Linux 机器 ping Windows 7 机器
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。关闭 8 年前。这个问题似乎不是关于 a specific programming problem,
java - AES 解密适用于 Solaris 机器 SunJCE，但不适用于具有 IBMJCE 的 AIX 机器
我们最近将我们的基础架构从 Solaris(Oracle/Sun Java) 迁移到 AIX(IBM Java)。我们的客户将使用我们共享的算法(AES)和 key 上传加密文件，一旦加密文件放置在
linux - 如何通过 ftp 从一台 Linux 机器(客户端)传输加密文件并在另一台 Linux 机器(服务器)上解密
我想编写一个程序(java)，它接受一个文件作为输入，对其进行加密(使用aes128)并通过ftp发送该加密文件，接收者接收它并使用 key 进行解密。我是初学者，有什么帮助可以做到这一点吗？非常感谢
c# - C# WinMobile 6.1 项目中的 C++ DLL - 1c2 机器 (Thumb) 与 14c 机器 (x86)
我正在尝试将一些为 1c2 机器 (thumb) 编译的 DLL 导入 WinMobile 6.1 C# 智能设备项目。然而，当我尝试将它们导入我的 C# 项目时，我得到“无法添加对...的引用”，
cpu - 寻找微型可编程FPGA+机器
我正在寻找 FPGA + 机器。它应该是入门级定价(例如不超过 200 美元)。编辑:我想制作一个 ASM 图表并将 FPGA 编程为我在图表中指定的行为最佳答案你看过Arduino ? 关于
Java bean 机器
这是我想完成的: Write a program that stimulates a bean machine Your program should prompt the user to enter
windows - Docker机器无法使用hyperv成功到达IP地址/机器
我尝试使用以下命令在 Windows 10 上使用 hyperv 创建一台机器: docker-machine create --driver hyperv default 但它给了我: This m
hadoop - 如何为每个节点(机器)配置hadoop映射器num
我有个问题我的问题是我有一个将 mapred.map.tasks 配置为10的作业(抓取工具)，这意味着我的工作将一次创建10个映射器。但是我的集群将 mapred.tasktracker.map.
docker - 无法重启 Docker 机器
我正在尝试使用命令重新启动 Docker sudo docker restart a7f8ce75f51f 但我收到以下错误 Error response from daemon: Cannot re
eclipse - 使用所有插件引导新的 Eclipse 机器
在新机器上引导 Eclipse 是一个非常耗时的过程，您最终会问自己是否真的需要每个插件。但这些都很方便，并且有助于养成一致的习惯。 Eclipse 引导问题包括: 解释/记录需要发生的事情粘贴正确
docker - 在不同的客户端设备上使用相同的 Docker 机器
我们希望建立一个 Docker 开发节点，我们团队中的任何人都可以将东西部署到其中。我使用 SSH 创建了一个新的 Docker 机器，如下所示: docker-machine create \
java - Java中的Singleton Logger可以记录日志方法来自哪个类并记录到多个区域/机器
如果可能的话，我想使用 java.util.logging 来做到这一点，有什么想法吗？谢谢。最佳答案您可以尝试一下SLF4J . Simple Logging Facade for Java (
vagrant - 如何在配置时解锁 Vagrant 机器
当 vagrant up 时，我们的 vagrant box 需要大约 1 小时才能提供第一次运行，在配置过程的最后，我想将盒子打包到本地文件夹中的图像，以便下次需要重建时将其用作基础盒子。我正在使用
python - 无法训练线性 SVM 机器
我正在为我的图像处理项目构建一个 SVM 线性机，在其中提取正样本和负样本的特征并将其保存到目录中。然后，我使用这些功能训练 SVM，但收到一个无法调试的错误。下面是我用于训练分类器的 train-c
mysql - 无法连接到 targat 机器
问题描述: 我要将MySQL server 5.7.11 (win32) 安装到Windows server 2012 中。服务器中安装了多个网络接口(interface)卡，我将安装多个绑定(bin
linux - 自动关闭预定的 Linux 机器
我想安排一台 (AWS) Linux 计算机启动、运行程序，然后自行关闭(以将成本保持在最低水平)。我可以放 mycommand; shutdown 在/etc/rc.local 文件中。但如果我需要
linux - 在网络服务器上设置 Linux 机器
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 4 年前。 Improve this ques
linux - 将文件的输出一行发送到远程 Linux 机器
如何将此文件的输出发送到另一台 Linux 计算机的主目录。显然，我想发送此文件的输出: sed '/^\s*#/d;/^$/d' /etc/httpd/conf/httpd.conf 到 nati
linux - 调试未知的 Linux 机器
我有一个 Linux 机器，我可以使用 SSH 进行 root 访问。我想使用GDB来调试系统。这是一个精简的 Debian 软件包；因此，我里面没有任何编译工具。 uname -a 给出: 2.

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

performance - 机器代码的精确副本运行速度比原始函数慢 50%