c - 全局化 2 个小型阵列如何导致性能显着下降？-6ren

c - 全局化 2 个小型阵列如何导致性能显着下降？

转载作者：太空宇宙更新时间：2023-11-04 00:03:41

25

4

我有 2 个小型本地数组:

short int xpLeft [4], xpRight [4];

当我将它们设为全局(以不同的方法访问它们，但只能在同一个 C 文件中(例如，其他模块无法访问))时，性能(在摩托罗拉 68000 上)下降。整个基准测试(渲染一个场景的 320 帧)不是 224 个 vblanks(对于本地)，而是突然需要 249 个 vblanks(全局数组)!

我尝试过的:
由于数组中的数据没有在该函数中使用，我虽然那个编译器捕获了它并且没有费心将结果值(从寄存器)写入内存(在 68000 上非常慢的操作 - 访问内存)。因此，我在函数末尾添加了一些小代码来使用这些数组值，并相应地提高了性能成本(仅 1 个 vblank)。

有什么帮助:
我需要检查最终的 ASM 代码(并比较两个版本)，但我不确定如何使用 vbcc 编译器(来自 Dr. Volker)来做到这一点。我尝试了文档中的几个开关，虽然它们确实产生了一些中间输出，但我无法让它提供每个模块的完整 ASM 列表(带有来自 C 的函数名称)。

我刚刚让开关“-k”工作。显然，开关的顺序很重要，我在命令行中找到了一个可以识别它的地方，我终于得到了 *.ASM 输出(不少于 30 万行)，但我终于有了一些东西(带符号的 ASM)挖掘。

我认为正在发生的事情:

将数组设为全局将它们放入 RAM 中的不同地址，内存 Controller 必须访问不同的 bank，而 bankswitch 在目标平台上是一个极其缓慢的操作 -导致 RAS 充电周期(访问不同行的地址)。
指针别名 - 编译器可能生成不同的代码，并且可能实际访问实际内存以进行中间操作结果——但如果我有每个函数的 ASM 输出，我可以很容易弄明白

关于为什么会发生这种情况或如何获取每个已编译模块的 vbcc 输出完整列表以及相应的 ASM 代码的任何提示？

使用 ASM 输出，我创建了一个小型测试重现案例:

short int tmpfn1 ()
{
    short int xpLeft [4], xpRight [4];
    short int i, tmp;

    for (i = 0; i < 4; i++)
    {
        xpLeft [i] = 137 + i;
        xpRight [i] = 215 + i;
    }

    tmp = xpLeft [0] + xpRight [0];
    return tmp;
}

这是生成的 ASM。虽然 ASM 是不言自明的，但我还是添加了一些评论:

    public  _tmpfn1
    cnop    0,4
_tmpfn1
    sub.w   #16,a7
    movem.l l4150,-(a7)
    moveq   #0,d1
    lea (0+l4152,a7),a1   ; a1 = &xpLeft [0]
    lea (8+l4152,a7),a2   ; a2 = &xpRight [0]
    move.w  #215,d3    ; d2/d3 = The Bulgarian constants 
    move.w  #137,d2
l4148
    move.w  d1,d0
    ext.l   d0
    lsl.l   #1,d0
    move.w  d2,(0,a1,d0.l)    ; xpLeft [i] = 137 + i;
    move.w  d3,(0,a2,d0.l)    ; xpRight [i] = 215 + i;
    addq.w  #1,d1    ; d1 = Loop Counter (i++)
    addq.w  #1,d2
    addq.w  #1,d3
    cmp.w   #4,d1
    blt l4148    ; Repeat the loop
    move.w  (8+l4152,a7),d0
    add.w   (0+l4152,a7),d0    ; tmp = xpLeft [0] + xpRight [0];
l4150   reg a2/d2/d3
    movem.l (a7)+,a2/d2/d3
    add.w   #16,a7
l4152   equ 12
    rts
; stacksize=28
    opt 0
    opt NQLPSMRBT

现在，我将把数组从本地放置到全局。

这是带有全局变量的代码。

    public  _tmpfn1
    cnop    0,4
_tmpfn1
    movem.l l4150,-(a7)
    moveq   #0,d1
    move.w  #215,d2
    move.w  #137,d3
l4148
    move.w  d1,d0
    ext.l   d0
    lsl.l   #1,d0
    lea _AxpLeft,a0
    move.w  d3,(0,a0,d0.l)
    lea _AxpRight,a0
    move.w  d2,(0,a0,d0.l)
    addq.w  #1,d1
    addq.w  #1,d3
    addq.w  #1,d2
    cmp.w   #4,d1
    blt l4148
    move.w  _AxpRight,d0
    add.w   _AxpLeft,d0
l4150   reg d2/d3
    movem.l (a7)+,d2/d3
l4152   equ 8
    rts
; stacksize=8
    opt 0
    opt NQLPSMRBT

唯一的区别是两条 lea 指令，如果内存正常，最多 16 个周期。
实际函数肯定有其他事情发生，但由于某种原因，它的代码在 ASM 中被混淆了(ASM 中只有 6 行，没有跳转，没有其他标签，什么都没有)。我将继续搜索 ASM，找到代码的确切位置。

最佳答案

正如我所怀疑的那样，有一个与 monster-WTF 编译器相关的时刻。之所以在局部变量的情况下只有 6 行代码，是因为编译器能够弄清楚，那 120 行 C 代码实际上并没有在全局级别上做任何事情，所以它完全忽略了代码完全!这意味着该方法的 ASM 代码就是那 6 行(带有 rts)。然而，这与我得到的基准测试结果没有多大意义(但这将是一个不同的故事)

故事的寓意:通过使变量成为全局变量，编译器实际上费心为函数创建代码(而不仅仅是空的 6 操作 stub )。由于我将所有内容都内联到该函数中，因此没有嵌套函数调用。现在，这显然听起来很荒谬，因为我在目标设备上对变量和输出进行了大约 25 次调试 session 。但是那一刻，我删除了那些外部打印/调试调用，那一定是编译器根本没有生成函数代码的那一刻。真他妈的神奇....

关于c - 全局化 2 个小型阵列如何导致性能显着下降？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32740626/

25

4

0

文章推荐： css - 特定伪类和类样式无法正常工作

文章推荐： python - 在 Pandas 中创建年份列

文章推荐： html - 使用 CSS 动画对 div 高度进行动画处理时出现问题

PHP $全局 |安全查询
我的应用程序中有一个 settings.php 页面，它使用 $GLOBALS 来存储网络应用程序中使用的配置。例如，他是我使用的一个示例设置变量: $GLOBALS["new_login_page
macos - 未知的伪操作 : . 全局
我正在尝试编译我们在 OS 类上获得的简单操作系统代码。它在 Ubuntu 下运行良好，但我想在 OS X 上编译它。我得到的错误是: [compiling] arch/i386/arch/start
hadoop - 带有通配符或变量的distcp目录的设计模式(全局)
我知道distcp无法使用通配符。但是，我将需要在更改的目录上安排distcp。 (即，仅在星期一等“星期五”目录中复制数据)，还从指定目录下的所有项目中复制数据。是否有某种设计模式可用于编写此类
grails - 全局@Resource格式优先级
是否可以在config.groovy中全局定义资源格式(json，xml)的优先级，而不是在每个Resource上指定？例如，不要在@Resource Annotation的参数中指定它，例如: @R
Hibernate - 如何使关联渴望(全局)？
是否有一些简单的方法来获取大对象图的所有关联，而不必“左连接获取”所有关联？我不能只告诉 Hibernate 默认获取 eager 关联吗？最佳答案即使有可能有一个全局 lazy=false(谷歌
Java - 全局、可重用的加载对话框
我正在尝试实现一个全局加载对话框...我想调用一些静态函数来显示对话框和一些静态函数来关闭它。与此同时，我正在主线程或子线程中做一些工作...... 我尝试了以下操作，但对话框没有更新...最后一次，
styling - 哪个字母占用了最多的新兴市场(全局)？
当我偶然发现 this question 时，我正在阅读更改占位符文本。无论如何，我回去学习了占位符。一个 SO 的回答大致如下: Be careful when designing your pl
javascript - 匹配不遵循字母表的数字并将它们放在捕获组中(全局)
例如，如果我有这样的文字: "hello800 more text 1234 and 567" 它应该匹配 1234 和 567，而不是 800(因为它遵循 hello 的 o，这不是一个数字)。这
android - 短信电话号码验证的替代方案 - 全局
我一直在尝试寻找一种无需使用 SMS 验证系统即可验证电话号码(Android 和 iPhone)的方法。原因纯粹是围绕成本。我想要一个免费的解决方案。我可以安全地假设 Android 操作系统会向
c++ - 为所有类提供运行时参数的规范方法——全局？
解决此类问题的规范 C++ 设计模式是什么？我有一些共享多个类的多线程服务器。我需要为大多数类提供各种运行时参数(例如服务器名称、日志记录级别)。在下面的伪 C++ 代码中，我使用了一个日志记录类
Python 全局/局部变量赋值问题
这个问题在这里已经有了答案: Using global variables in a function (25 个答案) 关闭 9 年前。我是 python 的新手，所以可能有一个简单的答案，但我
c++ - (全局)静态变量会在程序结束时被销毁吗？
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Does C++ call destructors for global and class static
ios - NSMutableArray 全局
我正在尝试使用 Objective-C 中的 ArrayList 的等价物。我知道我必须使用 NSMutableArray。我想要一个字符串列表 (NSString)。关键是我的列表应该可以从我类(c
Android 全局/通用函数
今天刚开始学习 Android 开发，我找不到任何关于如何定义 Helper 类或将全局加载的函数集合的信息，我会能够在我创建的任何 Activity 中使用它们。我的计划是创建(至少目前)2 个几
Python 全局/局部变量
为什么这段代码有效: var = 0 def func(num): print num var = 1 if num != 0: func(num-1) fun
php - 错误还是黑客？ $全局
$GLOBALS["items"] = array('one', 'two', 'three', 'four', 'five' ,'six', 'seven'); $alter = &$GLOBALS
Python:日志记录模块 - 全局
我想知道如何实现一个可以在任何地方使用您自己的设置的全局记录器: 我目前有一个自定义记录器类: class customLogger(logging.Logger): ... 该类位于一个单独的
jestjs - 全局 beforeAll in Jest？
我需要使用 React 测试库和 Jest 在我的测试中模拟不同的窗口大小。目前我必须在每个测试文件中包含这个beforeAll: import matchMediaPolyfill from 'm
oop - 静态成员不会使类本身成为(全局)对象吗？
每次我遇到单例模式或任何静态类(即(几乎)只有静态成员的类)的实现时，我想知道这是否实际上不是一种黑客行为，因此只是为了设计而严重滥用类和实例的原则单个对象，而不是设计类和创建单个实例。对我来说，看起
regex - 全局 g 正则表达式标志的奇怪行为
这个问题在这里已经有了答案: Help understanding global flag in perl (2 个回答) 7年前关闭。 my $test = "There was once an\n

首页

博学

6Ren·AI

商城

c - 全局化 2 个小型阵列如何导致性能显着下降？