iphone - 使用 NEON 优化 RGBA8888 到 RGB565 的转换-6ren

iphone - 使用 NEON 优化 RGBA8888 到 RGB565 的转换

转载作者：可可西里更新时间：2023-11-01 03:08:21

我正在尝试使用 NEON 矢量指令集优化 iOS 上的图像格式转换。我认为这会很好地映射到那个，因为它处理一堆类似的数据。

不过，我的尝试并没有那么顺利，与朴素的 c 实现相比，只实现了边际加速:

for(int i = 0; i < pixelCount; ++i, ++inPixel32) {
    const unsigned int r = ((*inPixel32 >> 0 ) & 0xFF);
    const unsigned int g = ((*inPixel32 >> 8 ) & 0xFF);
    const unsigned int b = ((*inPixel32 >> 16) & 0xFF);
    *outPixel16++ = ((r >> 3) << 11) | ((g >> 2) << 5) | ((b >> 3) << 0);
}

iPad 2 上的 1 百万像素图像阵列:

格式为 [min avg max n=number of timer samples] 以毫秒为单位

C:[14.446 14.632 18.405 n=1000] 毫秒

NEON :[11.920 12.032 15.336 n=1000] 毫秒

我对 NEON 实现的尝试如下:

    int i;
const int pixelsPerLoop = 8;
for(i = 0; i < pixelCount; i += pixelsPerLoop, inPixel32 += pixelsPerLoop, outPixel16 += pixelsPerLoop) {
    //Read all r,g,b pixels into 3 registers
    uint8x8x4_t rgba  = vld4_u8(inPixel32);
    //Right-shift r,g,b as appropriate
    uint8x8_t r = vshr_n_u8(rgba.val[0], 3);
    uint8x8_t g = vshr_n_u8(rgba.val[1], 2);
    uint8x8_t b = vshr_n_u8(rgba.val[2], 3);

    //Widen b
    uint16x8_t r5_g6_b5 = vmovl_u8(b);
    //Widen r
    uint16x8_t r16 = vmovl_u8(r);
    //Left shift into position within 16-bit int
    r16 = vshlq_n_u16(r16, 11);
    r5_g6_b5 |= r16;

    //Widen g
    uint16x8_t g16 = vmovl_u8(g);
    //Left shift into position within 16-bit int
    g16 = vshlq_n_u16(g16, 5);

    r5_g6_b5 |= g16;

    //Now write back to memory
    vst1q_u16(outPixel16, r5_g6_b5);        
}
//Do the remainder on normal flt hardware

代码通过 LLVM 3.0 编译成以下内容(删除了 .loc 和额外的标签):

_DNConvert_ARGB8888toRGB565:
    push    {r4, r5, r7, lr}
    mov r9, r1
    mov.w   r12, #0
    add r7, sp, #8
    cmp r2, #0
    mov.w   r1, #0
    it  ne
    movne   r1, #1
    cmp r0, #0
    mov.w   r3, #0
    it  ne
    movne   r3, #1
    cmp.w   r9, #0
    mov.w   r4, #0
    it  ne
    movne   r4, #1
    tst.w   r9, #3
    bne LBB0_8
    ands    r1, r3
    ands    r1, r4
    cmp r1, #1
    bne LBB0_8
    movs    r1, #0
    lsr.w   lr, r9, #2
    cmp.w   r1, r9, lsr #2
    bne LBB0_9
    mov r3, r2
    mov r5, r0
    b   LBB0_5
LBB0_4:
    movw    r1, #65528
    add.w   r0, lr, #7
    movt    r1, #32767
    ands    r1, r0
LBB0_5:
    mov.w   r12, #1
    cmp r1, lr
    bhs LBB0_8
    rsb r0, r1, r9, lsr #2
    mov.w   r9, #63488
    mov.w   lr, #2016
    mov.w   r12, #1
LBB0_7:
    ldr r2, [r5], #4
    subs    r0, #1
    and.w   r1, r9, r2, lsl #8
    and.w   r4, lr, r2, lsr #5
    ubfx    r2, r2, #19, #5
    orr.w   r2, r2, r4
    orr.w   r1, r1, r2
    strh    r1, [r3], #2
    bne LBB0_7
LBB0_8:
    mov r0, r12
    pop {r4, r5, r7, pc}
LBB0_9:
    sub.w   r1, lr, #1
    movs    r3, #32
    add.w   r3, r3, r1, lsl #2
    bic r3, r3, #31
    adds    r5, r0, r3
    movs    r3, #16
    add.w   r1, r3, r1, lsl #1
    bic r1, r1, #15
    adds    r3, r2, r1
    movs    r1, #0
LBB0_10:
    vld4.8  {d16, d17, d18, d19}, [r0]!
    adds    r1, #8
    cmp r1, lr
    vshr.u8 d20, d16, #3
    vshr.u8 d21, d17, #2
    vshr.u8 d16, d18, #3
    vmovl.u8    q11, d20
    vmovl.u8    q9, d21
    vmovl.u8    q8, d16
    vshl.i16    q10, q11, #11
    vshl.i16    q9, q9, #5
    vorr    q8, q8, q10
    vorr    q8, q8, q9
    vst1.16 {d16, d17}, [r2]!
Ltmp28:
    blo LBB0_10
    b   LBB0_4

完整代码可在 https://github.com/darknoon/DNImageConvert 获得我将不胜感激任何帮助，谢谢!

最佳答案

这是为 XCode 准备的手动优化的 NEON 实现:

/* IT DOESN'T WORK!!! USE THE NEXT VERSION BELOW.
 * BGRA2RGB565.s
 *
 * Created by Jake "Alquimista" Lee on 11. 11. 1..
 * Copyright 2011 Jake Lee. All rights reserved.
 */


    .align 2
    .globl _bgra2rgb565_neon
    .private_extern _bgra2rgb565_neon

// unsigned int * bgra2rgb565_neon(unsigned int * pDst, unsigned int * pSrc, unsigned int count);


//ARM
pDst        .req    r0
pSrc        .req    r1
count       .req    r2

//NEON
blu         .req    d16
grn         .req    d17
red         .req    d18
alp         .req    d19
rg          .req    red
gb          .req    blu

_bgra2rgb565_neon:
    pld     [pSrc]
    tst     count, #0x7
    movne   r0, #0
    bxne    lr

loop:
    pld     [pSrc, #32]
    vld4.8  {blu, grn, red, alp}, [pSrc]!
    subs    count, count, #8
    vshr.u8 red, red, #3
    vext.8  rg, grn, red, #5
    vshr.u8 grn, grn, #2
    vext.8  gb, blu, grn, #3
    vst2.8  {gb, rg}, [pDst]!
    bgt     loop

    bx      lr

这个版本会比你建议的快很多倍:

通过 PLD 提高缓存命中率
不需要转换为“long”
循环中的指令更少

不过仍有一些优化空间，您可以修改循环，使其每次迭代转换 16 个像素而不是 8 个。然后您可以安排指令以完全避免这两个停顿(这在上面的这个 8/迭代版本中根本不可能)并且另外受益于 NEON 的双重发布能力。

我没有这样做，因为这会使代码难以理解。

了解 VEXT 应该做什么很重要。

现在就看你的了。 :)

我验证了这段代码可以在 Xcode 下正确编译。虽然我很确定它也能正常工作，但我不能保证这一点，因为我没有测试环境。如果出现故障，请告诉我。我会相应地更正它。

是的

============================================= ===============================

好吧，这是改进后的版本。

由于 VSRI 指令的性质不允许目标以外的两个操作数，因此不可能创建一个关于寄存器分配的更稳健的指令。

请检查源图像的图像格式。 (元素的确切字节顺序)

如果不是 B、G、R、A，这是 iOS 上的默认和 native ，您的应用程序将严重受到 iOS 内部转换的影响。

如果无论出于何种原因绝对无法更改此设置，请告诉我。我会写一个匹配它的新版本。

PS:我忘了删除函数原型(prototype)开头的下划线。现在它消失了。

/*
 * BGRA2RGB565.s
 *
 * Created by Jake "Alquimista" Lee on 11. 11. 1..
 * Copyright 2011 Jake Lee. All rights reserved.
 *
 * Version 1.1
 * - bug fix
 *
 * Version 1.0
 * - initial release
 */


    .align 2
    .globl _bgra2rgb565_neon
    .private_extern _bgra2rgb565_neon

// unsigned int * bgra2rgb565_neon(unsigned int * pDst, unsigned int * pSrc, unsigned int count);


//ARM
pDst        .req    r0
pSrc        .req    r1
count       .req    r2

//NEON
blu         .req    d16
grn         .req    d17
red         .req    d18
alp         .req    d19

gb          .req    grn
rg          .req    red

_bgra2rgb565_neon:
    pld     [pSrc]
    tst     count, #0x7
    movne   r0, #0
    bxne    lr

.loop:
    pld     [pSrc, #32]
    vld4.8  {blu, grn, red, alp}, [pSrc]!
    subs    count, count, #8

    vsri.8  red, grn, #5
    vshl.u8 gb, grn, #3
    vsri.8  gb, blu, #3

    vst2.8  {gb, rg}, [pDst]!
    bgt     .loop

    bx      lr

关于iphone - 使用 NEON 优化 RGBA8888 到 RGB565 的转换，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7707603/

文章推荐： ios - 识别后使UIGestureRecognizer失败的方法？

文章推荐： c# - OWIN app.use vs app.run vs app.map

文章推荐： java - 从包含 HTTP header 的字符串中提取值

文章推荐： iphone - 蓝牙对等网络 API iOS

iphone - iPhone 应用程序设置是否必须显示在 iPhone 系统设置中？
如果我使用 NSUserDefaults 存储应用程序的设置，是否有任何方法可以使我的应用程序的设置“隐藏”，以免显示在 iPhone 上的常规设置应用程序中？我知道还有其他工具，例如 mySetti
iphone - 将 iPhone 应用程序安装到 iPhone
我按照该网站的教程进行操作: http://theappleblog.com/2008/08/04/tutorial-build-a-simple-rss-reader-for-iphone/ 为了制
iphone - 无需更改 iPhone 设置即可本地化 iPhone
我通过 localisableString 和仅适用于 NSLocale 方法的不同 xib 更改 iPhone 的语言来完成本地化，但应用程序的要求是通过更改应用程序设置 View 中的语言来本地化
iphone - iPhone 如何通过无线或蓝牙访问另一台非 iPhone 设备？
我试图弄清楚 iPhone 是否可以通过无线或蓝牙连接到另一台非 iPhone 设备，但发现了相互冲突的信息。我发现的大部分内容都是在 SDK 3.0 版本发布之前发现的，当时这肯定是不可能的。查看堆
iphone - iPhone 4，iPhone 5和iPad在用户界面方面有所区别
This question already has answers here: Closed 7 years ago. Possible Duplicate: How to detect iPhone
iphone - iPhone 模拟器中的白色空白屏幕和加载到 iPhone 中时的黑色空白屏幕
当我在模拟器上运行我的应用程序时，每次都会生成白色的空白屏幕。但是当我在底部黑色 iPhone 按钮退出应用程序后，重新进入应用程序后 View 将可见。然后应用程序照常运行。但是当我将它加载到我的
iphone - iPhone 和 iPhone 之间的屏幕连接
我的意思是两台 iPhone 设备应该通过蓝牙或 WiFi 连接，并且一台设备的 UI 应该扩展到另一台 iPhone 设备(不共享屏幕)。我们有办法在 iOS 中执行此操作吗？最佳答案 Bump
iphone - iOS 如何通过宏检测iPhone X、iPhone 6 plus、iPhone 6、iPhone 5、iPhone 4？
如何通过宏检测设备型号？我使用过类似的东西，但模拟器上的结果总是 IS_IPHONE_5 #define IS_IPAD (UI_USER_INTERFACE_IDIOM() == UIUserInt
iphone - 如何从 iPhone 应用程序中将用户引导至 iPhone 设置主屏幕
我目前有一个应用程序要求用户维护 VPN 隧道。加载时我检查 VPN 隧道是否可用。我想知道是否有任何方法可以显示 UIAlertView，单击“确定”后，用户将进入 iPhone 主设置屏幕，以便
iphone - 将 iPhone 应用程序的投票限制在特定 iPhone 设备上
我正在开发一个 iPhone 客户端应用程序，它允许用户对各种服务进行评分。无需注册或登录。要求是用户不能重复对服务进行评分(尽管可以更改其评分)。从目前的情况来看，该应用程序可以被删除、重新安装，
iphone - 我们可以从一个 iPhone 应用程序调用另一个 iPhone 应用程序吗？
比如说，我点击一个 iphone 应用程序图标，启动时它将创建一个 .app 文件。那么是否可以从该应用程序调用另一个 iphone 应用程序。或者我们可以在该 .app 文件中执行一些操作，例如它将
iphone - 如何让 iPhone 静音模式独立于 iPhone App？
真的有可能让iPhone静音模式独立于iPhone App吗？这个应用程序"Talking Carl"让我很困惑。我的 iPhone 处于静音模式。每当我打开这个应用程序时。应用程序声音处于开启模式
iphone - 通过应用程序将 iPhone 设置为振动并将 iPhone 设置回声音
这个问题不太可能对任何 future 的访客有帮助；它只与一个较小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，通常不适用于全世界的互联网受众。如需帮助使此问题更广泛适用，visit the
iphone - 您可以在不加入 iPhone 开发者计划的情况下编写自定义应用程序并将其安装到您的 iPhone 上吗？
如果我想编写一些自定义 iPhone 应用程序，但不一定通过 App Store 分发它们，是否可以在不加入 iPhone 开发者计划的情况下实现？假设我只是想为自己编写一些小实用程序并将其放入我的
iphone - iPhone 游戏引擎与原生 iPhone sdk 开发
人们对 Unity 或 Torque Engine 等游戏引擎有何看法和/或体验？如果您是 iPhone 游戏开发新手，是否值得学习其中一种引擎？这些引擎生成的应用程序与使用 sdk 的 native
iphone - 如何分发 iPhone 应用程序以在测试计算机上的 iPhone 模拟器中进行测试？
您能否在未安装 XCode 开发工具的计算机上分发 iPhone 应用程序以在 iPhone 模拟器中进行测试？可以直接在电脑上安装模拟器进行测试吗？我有一组测试人员，他们不是开发人员，除了能够运行
iphone - 如何在不参与 iPhone 开发者计划的情况下在越狱的 iPhone 上构建和安装应用程序？
我想在我的越狱设备上构建并安装我的应用程序，而无需支付 iPhone 开发者计划所需的 99 美元。我有 Rock 和 Cydia...最简单的方法是什么(如果可能的话)？谢谢。最佳答案这是一个
iphone - 有没有一种方法可以在没有 iPhone 的情况下在 iPhone 上测试网站？
我想测试一个网站，看看它如何与 iPhone 配合使用，但我没有 iPhone 或 iPod touch。有没有一种方法可以让我在不拥有网站的情况下测试网站的运行情况？我真正想要的是修复 Stack
iphone - 除了作为 iPhone 开发者进行简单的注册之外，iPhone 开发者计划还为我提供了什么？
简单地说；我的 99 美元能给我带来什么我无法免费获得的东西？好吧，好吧，听起来是个愚蠢的问题，但苹果网站对我来说并不清楚。我的预感是，您可以在 99 岁时向应用程序商店提交应用程序，但您可以免费
iphone - 如何将我的 iPhone 应用程序转移到我的真实 iPhone 上？
我是一名注册的 iOS 开发人员。如何将我的 iPhone 应用程序转移到我的个人 iPhone？最佳答案用于测试？只需选择您的设备而不是模拟器即可。关于iphone - 如何将我的 iPhon

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

iphone - 使用 NEON 优化 RGBA8888 到 RGB565 的转换