ios - 为基于 ARM 的设备优化 C 代码-6ren

ios - 为基于 ARM 的设备优化 C 代码

转载作者：行者123 更新时间：2023-12-03 19:49:32

最近，我偶然发现一个面试问题，需要编写针对 ARM，尤其是 iPhone 优化的代码:

Write a function which takes an array of char (ASCII symbols) and find the most frequent character.

char mostFrequentCharacter(char* str, int size)

The function should be optimized to run on dual-core ARM-based processors, and an infinity amount of memory.

从表面上看，问题本身看起来非常简单，这是我脑海中浮现的函数的简单实现:

#define RESULT_SIZE 127

inline int set_char(char c, int result[])
{
    int count = result[c];
    result[c] = ++count;
    return count;
}

char mostFrequentChar(char str[], int size)
{
    int result[RESULT_SIZE] = {0};

    char current_char;
    char frequent_char = '\0';

    int current_char_frequency = 0;
    int char_frequency = 0;

    for(size_t i = 0; i<size; i++)
    {
        current_char = str[i];
        current_char_frequency = set_char(current_char, result);

        if(current_char_frequency >= char_frequency)
        {
            char_frequency = current_char_frequency;
            frequent_char = current_char;
        }
    }

    return frequent_char;
}

首先，我做了一些基本的代码优化；我将每次迭代计算最频繁的字符的代码移至额外的 for 循环，并显着提高了速度，而不是评估以下代码块 size次

if(current_char_frequency >= char_frequency)
{
    char_frequency = current_char_frequency;
    frequent_char = current_char;
}

我们可以在O(RESULT_SIZE)中找到最常见的字符，其中RESULT_SIZE == 127。

char mostFrequentCharOpt1(char str[], int size)
{
    int result[RESULT_SIZE] = {0};

    char frequent_char = '\0';

    int current_char_frequency = 0;
    int char_frequency = 0;

    for(int i = 0; i<size; i++)
    {
        set_char(str[i], result);
    }

    for(int i = 0; i<RESULT_SIZE; i++)
    {
        current_char_frequency = result[i];

        if(current_char_frequency >= char_frequency)
        {
            char_frequency = current_char_frequency;
            frequent_char = i;
        }
    }

    return frequent_char;
}

基准测试:iPhone 5s

size = 1000000
iterations = 500

// seconds = 7.842381
char mostFrequentChar(char str[], int size)

// seconds = 5.905090
char mostFrequentCharOpt1(char str[], int size)

平均而言，mostFrequentCharOpt1 的工作速度比基本实现快约 24%。

类型优化

ARM 内核寄存器的长度为 32 位。因此，将所有类型为 char 的局部变量更改为类型为 int 可以防止处理器在每次赋值后执行额外的指令来计算局部变量的大小。

注意:ARM64 提供 31 个寄存器 (x0-x30)，其中每个寄存器都是 64 位宽，并且还具有 32 位形式 (w0-w30)。因此，无需执行任何特殊操作即可对 int 数据类型进行操作。 infocenter.arm.com - ARMv8 Registers

在比较汇编语言版本中的函数时，我注意到 ARM 使用 int 类型和 char 类型的方式之间存在差异。 ARM 使用 LDRB 指令加载字节，使用 STRB 指令将字节存储到内存中的各个字节中。因此，在我看来，LDRB 比 LDR 慢一点，因为 LDRB 每次访问内存并加载到寄存器时都会进行零扩展。换句话说，我们不能只是将一个字节加载到 32 位寄存器中，我们应该将字节转换为字。

基准测试:iPhone 5s

size = 1000000
iterations = 500

// seconds = 5.905090
char mostFrequentCharOpt1(char str[], int size)

// seconds = 5.874684
int mostFrequentCharOpt2(char str[], int size)

将 char 类型更改为 int 并没有让我在 iPhone 5s 上显着提高速度，相比之下，在 iPhone 4 上运行相同的代码却得到了不同的结果:

基准测试:iPhone 4

size = 1000000
iterations = 500

// seconds = 28.853877
char mostFrequentCharOpt1(char str[], int size)

// seconds = 27.328955
int mostFrequentCharOpt2(char str[], int size)

循环优化

接下来，我进行了循环优化，其中，我不是递增 i 值，而是递减它。

before    
for(int i = 0; i<size; i++) { ... }

after
for(int i = size; i--) { ... }

再次通过比较汇编代码，我可以清楚地区分这两种方法。

mostFrequentCharOpt2                                              |      mostFrequentCharOpt3
0x10001250c <+88>:  ldr    w8, [sp, #28] ; w8 = i                 |      0x100012694 <+92>:  ldr    w8, [sp, #28]                                             ; w8 = i
0x100012510 <+92>:  ldr    w9, [sp, #44] ; w9 = size              |      0x100012698 <+96>:  sub    w9, w8, #1 ; w9 = i - 1                                           
0x100012514 <+96>:  cmp    w8, w9 ; if i<size                     |      0x10001269c <+100>: str    w9, [sp, #28] ; save w9 to memmory
0x100012518 <+100>: b.ge   0x100012548 ; if true => end loop      |      0x1000126a0 <+104>: cbz    w8, 0x1000126c4 ; compare w8 with 0 and if w8 == 0 => go to 0x1000126c4
0x10001251c <+104>: ... set_char start routine                    |      0x1000126a4 <+108>: ... set_char start routine
...                                                               |      ...
0x100012534 <+128>: ... set_char end routine                      |      0x1000126bc <+132>: ... set_char end routine
0x100012538 <+132>: ldr    w8, [sp, #28] ; w8 = i                 |      0x1000126c0 <+136>: b      0x100012694 ; back to the first line
0x10001253c <+136>: add    w8, w8, #1 ; i++                       |      0x1000126c4 <+140>: ...
0x100012540 <+140>: str    w8, [sp, #28] ; save i to $sp+28       |      
0x100012544 <+144>: b      0x10001250c ; back to the first line   |      
0x100012548 <+148>: str    ...                                    |

这里，代替从内存访问 size 并将其与 i 变量进行比较，其中 i 变量递增，我们只是将 i 减 0x1，并将存储 i 的寄存器与 0 进行比较。

基准测试:iPhone 5s

size = 1000000
iterations = 500

// seconds = 5.874684
char mostFrequentCharOpt2(char str[], int size) //Type optimization

// seconds = 5.577797
char mostFrequentCharOpt3(char str[], int size) //Loop otimization

线程优化

准确地阅读问题至少可以让我们多一个优化。此行..优化为在基于 ARM 的双核处理器上运行... 特别是，删除了使用 pthread 或 gcd 优化代码的提示。

int mostFrequentCharThreadOpt(char str[], int size)
{
    int s;
    int tnum;
    int num_threads = THREAD_COUNT; //by default 2
    struct thread_info *tinfo;

    tinfo = calloc(num_threads, sizeof(struct thread_info));

    if (tinfo == NULL)
        exit(EXIT_FAILURE);

    int minCharCountPerThread = size/num_threads;
    int startIndex = 0;

    for (tnum = num_threads; tnum--;)
    {
        startIndex = minCharCountPerThread*tnum;

        tinfo[tnum].thread_num = tnum + 1;
        tinfo[tnum].startIndex = minCharCountPerThread*tnum;
        tinfo[tnum].str_size = (size - minCharCountPerThread*tnum) >= minCharCountPerThread ? minCharCountPerThread : (size - minCharCountPerThread*(tnum-1));
        tinfo[tnum].str = str;

        s = pthread_create(&tinfo[tnum].thread_id, NULL,
                           (void *(*)(void *))_mostFrequentChar, &tinfo[tnum]);
        if (s != 0)
            exit(EXIT_FAILURE);
    }

    int frequent_char = 0;
    int char_frequency = 0;
    int current_char_frequency = 0;

    for (tnum = num_threads; tnum--; )
    {
        s = pthread_join(tinfo[tnum].thread_id, NULL);
    }

    for(int i = RESULT_SIZE; i--; )
    {
        current_char_frequency = 0;

        for (int z = num_threads; z--;)
        {
            current_char_frequency += tinfo[z].resultArray[i];
        }

        if(current_char_frequency >= char_frequency)
        {
            char_frequency = current_char_frequency;
            frequent_char = i;
        }
    }

    free(tinfo);

    return frequent_char;
}

基准测试:iPhone 5s

size = 1000000
iterations = 500

// seconds = 5.874684
char mostFrequentCharOpt3(char str[], int size) //Loop optimization

// seconds = 3.758042
// THREAD_COUNT = 2
char mostFrequentCharThreadOpt(char str[], int size) //Thread otimization

注意:mostFrequentCharThreadOpt 在 iPhone 4 上的运行速度比mostFrequentCharOpt2 慢。

基准测试:iPhone 4

size = 1000000
iterations = 500

// seconds = 25.819347
char mostFrequentCharOpt3(char str[], int size) //Loop optimization

// seconds = 31.541066
char mostFrequentCharThreadOpt(char str[], int size) //Thread otimization

问题

mostFrequentCharOpt3 和mostFrequentCharThreadOpt 的优化程度如何，换句话说:是否有其他方法可以优化这两种方法？

Source code

最佳答案

好吧，您可以尝试以下方法，我不能 100% 说出什么对您的情况有效，但根据经验，如果您关闭所有可能的优化，并查看事实上，即使循环优化也对你有用:你的编译器相当 NumPy 。

这稍微取决于您的 THREAD_COUNT，您说默认为 2，但如果您 100% 为 2，您可能可以腾出一些时间。您知道您工作的平台，如果速度是你的首要任务，就不要无缘无故地让任何东西变得动态。

如果THREAD == 2，则num_threads是不必要的变量，可以删除。

int minCharCountPerThread = size/num_threads;

许多讨论有关位移位的主题的旧方法，请尝试一下:

int minCharCountPerThread = size >> 1; //divide by 2

您可以尝试的下一件事是展开循环:多个循环仅使用两次，如果大小不是问题，为什么不删除循环方面呢？这确实是您应该尝试的事情，看看会发生什么，以及它是否对您有用。我见过案例循环展开效果很好，我见过案例循环展开会减慢我的代码速度。

最后一件事:如果signed/int，请尝试使用unsigned数字(除非您确实需要签名)。众所周知，某些技巧/指令仅适用于无符号变量。

关于ios - 为基于 ARM 的设备优化 C 代码，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32706934/

文章推荐： ios - 在团队中将应用程序提交到 iTunes connect

文章推荐： ios - 如何启用远程调试 iOS webapp？

文章推荐： ios - 支持 CMSensorRecorder 的设备

文章推荐： ios - 是否可以让 CoreBluetooth 始终开启并扫描？

io - 内存映射 IO - IO 设备如何知道值已更改？
IO 设备如何知道属于它的内存中的值在memory mapped IO 中发生了变化？？例如，假设内存地址 0 专用于保存 VGA 设备的背景颜色。当我们更改 memory[0] 中的值时，VGA
ios - Facebook iOS iOS SDK登录错误
我目前正在开发一个使用Facebook sdk登录(通过FBLoginView)的iOS应用。一切正常，除了那些拥有较旧版本的facebook的人。当他们按下“使用Facebook登录”按钮时，他
ios - ios ios nsrange char从结束
假设我有: this - is an - example - with some - dashesNSRange将使用`rangeOfString:@“-”拾取“-”的第一个实例，但是如果我只想要最后
ios - 如何从card.io SDK获取国家名称？ -iOS
Card.io SDK提供以下详细信息: 卡号，有效期，月份，年份，CVV和邮政编码。如何从此SDK获取国家名称。 - (void)userDidProvideCreditCardInfo:(Car
ios - iOS 应用程序如何从网络服务下载图片并在安装过程中将它们安装在用户的 iOS 设备上？
iOS 应用程序如何从网络服务下载图片并在安装过程中将它们安装到用户的 iOS 设备上？可能吗？最佳答案您无法控制应用在用户设备上的安装，因此无法在安装过程中下载其他数据。只需在安装后首次启动应
ios - iOS 企业应用程序和 iOS 零售应用程序之间的区别
我曾经开发过一款企业版 iOS 产品，我们公司曾将其出售给大型企业，供他们的员工使用。该应用程序通过 AppStore 提供，企业用户获得了公司特定的配置文件(包含应用程序配置文件)以启用他们有权使
ios - Card.io ios 与本地化集成
我正在尝试将 Card.io SDK 集成到我的 iOS 应用程序中。我想为 CardIO ui 做一个简单的本地化，如更改取消按钮标题或“在此保留信用卡”提示文本。我在 github 上找到了这个
ios - Card.Io iOS 扫描名称
我正在使用 CardIOView 和 CardIOViewDelegate 类，没有可以设置为 YES 的 BOOL 来扫描 collectCardholderName。我可以看到它在 CardIOP
ios - 如何为最近的原生 ios 应用程序设置名称字段？ - iOS
我有一个集成了通话工具包的 voip 应用程序。每次我从我的 voip 应用程序调用时，都会在 native 电话应用程序中创建一个新的最近通话记录。我在 voip 应用程序中也有自定义联系人(电话应
ios - iOS 应用程序如何在应用程序打开时知道键盘是否已经在屏幕上(iOS 多任务处理)
iOS 应用程序如何知道应用程序打开时屏幕上是否已经有键盘？应用程序运行后，它可以接收键盘显示/隐藏通知。但是，如果应用程序在分屏模式下作为辅助应用程序打开，而主应用程序已经显示键盘，则辅助应用程序不
ios - iOS 上的图像 IO 错误
我在模拟器中收到以下错误: ImageIO: CGImageReadSessionGetCachedImageBlockData *** CGImageReadSessionGetCachedIm
ios - iOS 设备与非 iOS 设备通信
如 Apple 文档所示，可以通过 EAAccessory Framework 与经过认证的配件(由 Apple 认证)进行通信。但是我有点困惑，因为一些帖子告诉我它也可以通过 CoreBluetoo
ios - (iOS) 直接在 iOS 设备上查看日志消息的方式？
尽管现在的调试器已经很不错了，但有时找出应用程序中正在发生的事情的最好方法仍然是古老的 NSLog。当您连接到计算机时，这样做很容易； Xcode 会帮助弹出日志查看器面板，然后就可以了。当您不在办公
ios - Kontakt.io iOS - 按名称识别信标
在我的 iOS 应用程序中，我定义了一些兴趣点。其中一些有一个 Kontakt.io 信标的名称，它绑定(bind)到一个特定的 PoI(我的意思是通常贴在信标标签上的名称)。现在我想在附近发现信标，
ios - Trigger.io iOS 插件从回调返回数据
我正在为警报提示创建一个 trigger.io 插件。尝试从警报提示返回数据。这是我的代码: // Prompt + (void)show_prompt:(ForgeTask*)task{
ios - iOS 4、iOS 5 和 iOS 6 的推送通知有何不同？
您好，我是 Apple iOS 的新手。我阅读并搜索了很多关于推送通知的文章，但我没有发现任何关于 APNS 从 io4 到 ios 6 的新更新的信息。任何人都可以向我提供 APNS 如何在 ios
ios - iOS 8、iOS 9、iOS 10 和 iOS 11 上 UITabBar 的高度是多少？
UITabBar 的高度似乎在 iOS 7 和 8/9/10/11 之间发生了变化。我发布这个问题是为了让其他人轻松找到答案。那么:在 iPhone 和 iPad 上的 iOS 8/9/10/11
ios - 最佳实践。通过支持 iOS 5、iOS 6 和 iOS 7 UI，使 iOS 应用程序变得通用
我想我可以针对不同的 iOS 版本使用不同的 Storyboard。由于 UI 的差异，我将创建下一个 Storyboard: Main_iPhone.storyboard Main_iPad.st
ios - 如何使用 iOS 中的视觉控件在 ios 中选择音轨的一部分？
我正在写一些东西，我将使用设备的 iTunes 库中的一部分音轨来覆盖 2 个视频的组合，例如: AVMutableComposition* mixComposition = [[AVMutableC
ios - iOS 模拟器中存在头文件，但 iOS 设备上不存在...？
我创建了一个简单的 iOS 程序，可以顺利编译并在 iPad 模拟器上运行良好。当我告诉 XCode 4 使用我连接的 iPad 设备时，无法编译相同的程序。问题似乎是当我尝试使用附加的 iPad 时

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

ios - 为基于 ARM 的设备优化 C 代码