c - 为什么 gcc (ARM) 不使用全局寄存器变量作为源操作数？-6ren

c - 为什么 gcc (ARM) 不使用全局寄存器变量作为源操作数？

转载作者：太空宇宙更新时间：2023-11-04 02:36:25

25

4

这是一个c源代码示例:

register int a asm("r8");
register int b asm("r9");

int main() {
    int c;
    a=2;
    b=3;
    c=a+b;
    return c;
}

这是使用 arm gcc 交叉编译器生成的汇编代码:

$ arm-linux-gnueabi-gcc  -c global_reg_var_test.c -Wa,-a,-ad

...
mov     r8, #2
mov     r9, #3
mov     r2, r8
mov     r3, r9
add     r3, r2, r3
...

使用 -frename-registers 时，行为是相同的。 (更新。在我用 -O3 说过之前。)

所以问题是:为什么 gcc 添加第 3 和第 4 个 MOV 而不是“ADD R3、R8、R9”？

上下文:我需要在不重命名寄存器的模拟中序 cpu (gem5 arm minorcpu) 中优化代码。

最佳答案

我举了真实的例子(发表在评论中)和put it on the godbolt compiler explorer . calc() 的主要低效率是 src1 和 src2 是它必须从内存加载的全局变量，而不是寄存器中传递的参数。

我没有看main，只看calc。

register int sum asm ("r4");
register int r asm ("r5");
register int c asm ("r6");
register int k asm ("r7");
register int temp1 asm ("r8");    // really?  you're using two global register vars for scratch temporaries?  Just let the compiler do its job.
register int temp2 asm ("r9");
register long n asm ("r10");
int *src1, *src2, *dst;

void calc() {
  temp1 = r*n;
  temp2 = k*n;

  temp1 = temp1+k;
  temp2 = temp2+c;

  // you get bad code for this because src1 and src2 are globals, not args passed in regs
  sum = sum + src1[temp1] * src2[temp2];
}

    # gcc 4.8.2 -O3 -Wall -Wextra -Wa,-a,-ad -fverbose-asm
    mla     r0, r10, r7, r6          @ temp2.9, n, k, c   @@ tmp = k*n + c
    movw    r3, #:lower16:.LANCHOR0  @ tmp136,
    mla     r8, r10, r5, r7          @ temp1, n, r, k     @@ temp1 = r*n + k
    movt    r3, #:upper16:.LANCHOR0  @ tmp136,
    ldmia   r3, {r1, r2}             @ tmp136,,           @@ load both pointers, since they're stored adjacently in memory
    mov     r9, r0                   @ temp2, temp2.9     @@ This insn is wasted: the first MLA should have had this as the dest
    ldr     r3, [r1, r8, lsl #2]     @ *_22, *_22
    ldr     r2, [r2, r9, lsl #2]     @ *_28, *_28
    mla     r4, r2, r3, r4           @ sum, *_28, *_22, sum
    bx      lr                       @

出于某种原因，其中一个整数乘法累加 (mla) 指令使用 r8 (temp1) 作为目标，但是另一个写入 r0(临时寄存器)，然后才将结果移动到 r9(temp2)。

sum += src1[temp1] * src2[temp2] 是通过 mla 读取和写入 r4 (求和).

为什么需要 temp1 和 temp2 是全局变量？这只会阻止优化器进行积极的优化，这些优化不会计算与 C 源代码完全相同的临时文件。幸运的是，C 内存模型足够弱，它应该能够重新排序分配给它们，尽管这实际上可能是它没有直接将 MLA 放入 temp2 的原因，因为它决定首先进行计算。 (嗯，内存模型是否适用？其他线程根本看不到我们的寄存器，所以这些全局变量都是有效的线程局部变量。它应该允许宽松的顺序分配给全局变量。信号处理程序可以看到这些全局变量，并且可以在任何时候运行。gcc 不遵循严格的源代码顺序，因为在源代码中，两个乘法都发生在任何一个加法之前。)

Godbolt 没有较新的 ARM gcc 版本，因此我无法轻松测试较新的 gcc。较新的 gcc 可能会在这方面做得更好。

顺便说一句，I tried a version of the function using local variables for temporaries, and didn't actually get better results .可能是因为仍然有太多寄存器全局变量，以至于 gcc 无法为临时变量选择方便的寄存器。

// same register globals, except for temp1 and temp2.

void calc_local_tmp() {
  int t1 = r*n + k;
  sum += src1[t1] * src2[k*n + c];
}
    push    {lr}                      @ gcc decides to push to get a tmp reg
    movw    r3, #:lower16:.LANCHOR0   @ tmp131,
    mla     lr, r10, r5, r7           @ tmp133, n.1, r, k.2
    movt    r3, #:upper16:.LANCHOR0   @ tmp131,
    mla     ip, r7, r10, r6           @ tmp137, k.2, n.1, c
    ldr     r2, [r3]                  @ src1, src1
    ldr     r0, [r3, #4]              @ src2, src2
    ldr     r1, [r2, lr, lsl #2]      @ *_10, *_10
    ldr     r3, [r0, ip, lsl #2]      @ *_20, *_20
    mla     r4, r3, r1, r4            @ sum, *_20, *_10, sum
    ldr     pc, [sp], #4              @

使用 -fcall-used-r8 -fcall-used-r9 编译没有帮助； gcc 生成与推送 lr 相同的代码以获得额外的临时文件。它无法使用 ldmia(加载多个)，因为它对将哪个临时文件放入哪个 reg 做出了次优选择。 (&src1 in r0 将让它加载 src1 和 src2 到 r2 和 r3.)

关于c - 为什么 gcc (ARM) 不使用全局寄存器变量作为源操作数？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36635242/

25

4

0

文章推荐： c - 签名错误的函数定义中的函数声明？

文章推荐： python - 使用 re 模块过滤

文章推荐： c - 如何使用斐波那契数列动态填充链表

json - Gatsby:在页面上组合两个 graphql 源(.json 和 .jpg 源)
语境我正在将一个旧的 php 电子商务网站变成一个用 gatsby.js 构建的静态网站。我将所有产品元数据放入单独的 .json 文件(每个产品一个)，并且我能够使用 json 和文件转换器插件
macos - 触控板手势切换到标题/源
我曾经能够使用三指向上滚动在源/标题之间切换。自从升级到 Lion 后，我只进行常规滚动。有没有办法恢复该功能？ Aka，当我像以前那样向上/向下滚动时，它不会跳到对应的位置。更新 Apple 在
javascript - 有没有办法根据jquery中克隆元素的更改来更新clone()源？
我有一个包含复选框输入的克隆元素。当克隆的元素未被选中时，我需要也取消选中源元素。有没有办法在 jQuery 中做到这一点？或者我是否以错误的方式处理这个问题(即使用clone())？我应该提到我的问
java - JSpinner 源？
我有一个类，其中有两个 JSpinner 对象，x 和 y。我有一个更改监听器，它已添加到两者中。有人可以告诉我如何实现我的更改监听器，以便监听器可以区分两个对象之间的区别。例如伪代码: if(sou
c - MPI_Allreduce 源
我正在编写涉及 for 循环的代码，该循环在每个索引处进行计算。这些计算中的最小值存储在一个变量中，我在程序末尾使用 MPI_Allreduce 来确定所有进程的全局最小值。但是，我需要一种方法来
安卓自定义 map 源
我需要在一个 Android 项目中创建一个 map View ，我从服务器获取自定义 map 图 block PNG。有人知道实现此类功能的简单许可 API 吗？最佳答案我使用了 OsmDroi
jquery - 源/背景网址/？
因为我必须创建一个可以更改图像 (src/background-url) 的函数。我想知道如何识别标签以及它是使用 src 还是 url 来访问图像。让我们说早些时候我写了一个可以
javascript - 源 map 资源管理器中的未映射字节是什么
当我使用源 map 浏览器 https://github.com/danvk/source-map-explorer要检查捆绑包中的内容，我得到以下输出: D:\projects\angular\mT
windev - 导出 Windev 源
我正在为客户将 Windev 应用程序移植到 Objective-C。出于显而易见的原因，使用以前的源代码会更简单。不幸的是，它是加密的，我需要 EDI 才能看到它；完整版的 Windev 太贵了(
wpf - 更改没有闪烁的 MediaElement 源
我有一个简单的视频播放器，它使用 WPF MediaElement 播放一系列视频。这些视频一起形成一个围绕静止图像移动的连续电影。在每个视频结束时，运动会卡住在当前播放视频的最后一帧。当我按下一个按
javascript - 如何更改打开的图层图 block 源？
我需要更改 openlayer 的图层源(使用 open weather api)。目前我正在使用以下代码但没有成功。 let layer = this.map.getLayers().getArra
java - 如何更改随机数据的 Java 源？
我正在尝试在 /dev/random 的机器上运行代码不会很快填满，我正在尝试使用的 Java 程序因缺少随机数而挂起。/dev/urandom产生“不太好”的随机数，但不会阻塞，对于这种情况，我宁愿
yocto - 构建 Yocto 源
我需要 Yocto 项目的源代码包。我已经拥有整个项目的所有资源，但它们还包括开发工具。我想有一种方法来生成将为目标图像构建的所有包的(修补的)源。因此，例如，如果目标图像包含 busybox，我想
javascript - 隐藏 iFrame 源
如何对入侵者隐藏 iFrame src 假设我正在流式传输我的网络摄像头或我的电脑屏幕，这是 iframe 代码: 并且我不希望它在大多数浏览器上显示页面源中的流 URL 和检查功能! 这意
qt - 调试到 Qt 源
是否可以进入 Qt 源，例如qmainwindow.cpp，在 Qt Creator 中？目前我正在看到反汇编，但最好能看到源代码。最佳答案当然!但您可能必须首先: 转到 $QT_HOME/qt
javascript - 如何通过单击链接更改视频 js 源
我正在尝试创建一个包含很少动漫剧集的简单网站。我有一个关于 javascript 的问题。如何通过单击我的链接之一来更改视频源？我明白，我必须使用事件监听器，只需更改取决于我点击的链接，但我不太擅长
c# - 如何清除绑定(bind)源？
我有一个带有 BindingSouce 的 DevExpress GridControl。我想清除 BindingSource 并用新数据填充它。我这样做: var list = new List()
jquery - 使用附加参数更新服务器处理的 DataTables 源
当单击提交输入按钮时，我尝试将其他参数(选定复选框的列表)传递到服务器处理的 DataTables 表#my_table: 这可能意味着我必须将 my_table.sAjaxSource 设置为后端脚
delphi - 制作没有基础(源)文件的增量文件？
(好吧，别对我大喊大叫，这里已经很晚了:)) 我正在研究 delta diff 工具(命令行工具或组件，只要我可以从 Delphi 2010 调用它们就可以了) 我有这个项目，我将文件上传到服务器，我
macos - 解析雅虎天气 RSS 源
我需要解析 Yahoo Weather RSS feed 中的某个位置，例如 http://weather.yahooapis.com/forecastrss?w=44418&u=c例如，获取最高、最

首页

博学

6Ren·AI

商城

c - 为什么 gcc (ARM) 不使用全局寄存器变量作为源操作数？