- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在这里引用@auselen 的回答:Using ARM NEON intrinsics to add alpha and permute ,看起来 armcc 编译器在 NEON 优化方面比 gcc 编译器好得多。这是真的吗?我还没有真正尝试过 armcc 编译器。但是我使用带有 -O3 优化标志的 gcc 编译器得到了非常优化的代码。但现在我想知道 armcc 是否真的那么好?那么,考虑到所有因素,这两个编译器中哪个更好?
最佳答案
编译器也是软件,它们往往会随着时间的推移而改进。任何像 armcc 在 NEON 上比 GCC 更好的通用声明(或者更好的说法是矢量化)不能永远成立,因为一个开发人员团队可以通过足够的关注来缩小差距。然而,最初期望硬件公司开发的编译器更优秀是合乎逻辑的,因为他们需要展示/销售这些功能。
我最近在 Stack Overflow 上看到的一个例子是关于 answer for branch prediction .引自更新部分的最后一行“这表明即使是成熟的现代编译器在优化代码的能力方面也会有很大差异......”。
我是 GCC 的忠实粉丝,但我不会将其生成的代码质量与 Intel 或 ARM 的编译器进行比较。我希望任何主流商业编译器都能生成至少与 GCC 一样好的代码。
这个问题的一个经验答案可能是使用 hilbert-space's neon optimization example看看不同的编译器如何优化它。
void neon_convert (uint8_t * __restrict dest, uint8_t * __restrict src, int n)
{
int i;
uint8x8_t rfac = vdup_n_u8 (77);
uint8x8_t gfac = vdup_n_u8 (151);
uint8x8_t bfac = vdup_n_u8 (28);
n/=8;
for (i=0; i<n; i++)
{
uint16x8_t temp;
uint8x8x3_t rgb = vld3_u8 (src);
uint8x8_t result;
temp = vmull_u8 (rgb.val[0], rfac);
temp = vmlal_u8 (temp,rgb.val[1], gfac);
temp = vmlal_u8 (temp,rgb.val[2], bfac);
result = vshrn_n_u16 (temp, 8);
vst1_u8 (dest, result);
src += 8*3;
dest += 8;
}
}
20: f421140d vld3.8 {d1-d3}, [r1]!
24: e2822001 add r2, r2, #1
28: f3810c04 vmull.u8 q0, d1, d4
2c: f3820805 vmlal.u8 q0, d2, d5
30: f3830806 vmlal.u8 q0, d3, d6
34: f2880810 vshrn.i16 d0, q0, #8
38: f400070d vst1.8 {d0}, [r0]!
3c: e1520003 cmp r2, r3
40: bafffff6 blt 20 <neon_convert+0x20>
1e: f961 040d vld3.8 {d16-d18}, [r1]!
22: 3301 adds r3, #1
24: 4293 cmp r3, r2
26: ffc0 4ca3 vmull.u8 q10, d16, d19
2a: ffc1 48a6 vmlal.u8 q10, d17, d22
2e: ffc2 48a7 vmlal.u8 q10, d18, d23
32: efc8 4834 vshrn.i16 d20, q10, #8
36: f940 470d vst1.8 {d20}, [r0]!
3a: d1f0 bne.n 1e <neon_convert+0x1e>
void neonPermuteRGBtoBGRA(unsigned char* src, unsigned char* dst, int numPix)
{
numPix /= 8; //process 8 pixels at a time
uint8x8_t alpha = vdup_n_u8 (0xff);
for (int i=0; i<numPix; i++)
{
uint8x8x3_t rgb = vld3_u8 (src);
uint8x8x4_t bgra;
bgra.val[0] = rgb.val[2]; //these lines are slow
bgra.val[1] = rgb.val[1]; //these lines are slow
bgra.val[2] = rgb.val[0]; //these lines are slow
bgra.val[3] = alpha;
vst4_u8(dst, bgra);
src += 8*3;
dst += 8*4;
}
}
$ arm-linux-gnueabihf-gcc --version
arm-linux-gnueabihf-gcc (crosstool-NG linaro-1.13.1-2012.05-20120523 - Linaro GCC 2012.05) 4.7.1 20120514 (prerelease)
$ arm-linux-gnueabihf-gcc -std=c99 -O3 -c ~/temp/permute.c -marm -mfpu=neon-vfpv4 -mcpu=cortex-a9 -o ~/temp/permute_gcc.o
00000000 <neonPermuteRGBtoBGRA>:
0: e3520000 cmp r2, #0
4: e2823007 add r3, r2, #7
8: b1a02003 movlt r2, r3
c: e92d01f0 push {r4, r5, r6, r7, r8}
10: e1a021c2 asr r2, r2, #3
14: e24dd01c sub sp, sp, #28
18: e3520000 cmp r2, #0
1c: da000019 ble 88 <neonPermuteRGBtoBGRA+0x88>
20: e3a03000 mov r3, #0
24: f460040d vld3.8 {d16-d18}, [r0]!
28: eccd0b06 vstmia sp, {d16-d18}
2c: e59dc014 ldr ip, [sp, #20]
30: e2833001 add r3, r3, #1
34: e59d6010 ldr r6, [sp, #16]
38: e1530002 cmp r3, r2
3c: e59d8008 ldr r8, [sp, #8]
40: e1a0500c mov r5, ip
44: e59dc00c ldr ip, [sp, #12]
48: e1a04006 mov r4, r6
4c: f3c73e1f vmov.i8 d19, #255 ; 0xff
50: e1a06008 mov r6, r8
54: e59d8000 ldr r8, [sp]
58: e1a0700c mov r7, ip
5c: e59dc004 ldr ip, [sp, #4]
60: ec454b34 vmov d20, r4, r5
64: e1a04008 mov r4, r8
68: f26401b4 vorr d16, d20, d20
6c: e1a0500c mov r5, ip
70: ec476b35 vmov d21, r6, r7
74: f26511b5 vorr d17, d21, d21
78: ec454b34 vmov d20, r4, r5
7c: f26421b4 vorr d18, d20, d20
80: f441000d vst4.8 {d16-d19}, [r1]!
84: 1affffe6 bne 24 <neonPermuteRGBtoBGRA+0x24>
88: e28dd01c add sp, sp, #28
8c: e8bd01f0 pop {r4, r5, r6, r7, r8}
90: e12fff1e bx lr
$ armcc
ARM C/C++ Compiler, 5.01 [Build 113]
$ armcc --C99 --cpu=Cortex-A9 -O3 -c permute.c -o permute_arm.o
00000000 <neonPermuteRGBtoBGRA>:
0: e1a03fc2 asr r3, r2, #31
4: f3870e1f vmov.i8 d0, #255 ; 0xff
8: e0822ea3 add r2, r2, r3, lsr #29
c: e1a031c2 asr r3, r2, #3
10: e3a02000 mov r2, #0
14: ea000006 b 34 <neonPermuteRGBtoBGRA+0x34>
18: f420440d vld3.8 {d4-d6}, [r0]!
1c: e2822001 add r2, r2, #1
20: eeb01b45 vmov.f64 d1, d5
24: eeb02b46 vmov.f64 d2, d6
28: eeb05b40 vmov.f64 d5, d0
2c: eeb03b41 vmov.f64 d3, d1
30: f401200d vst4.8 {d2-d5}, [r1]!
34: e1520003 cmp r2, r3
38: bafffff6 blt 18 <neonPermuteRGBtoBGRA+0x18>
3c: e12fff1e bx lr
关于embedded - 对于 NEON 优化,哪个更好,gcc 或 armcc?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12577572/
我正在尝试使用使用 ARMCC 编译器的 Keil ARM 工具删除未使用的代码。我以前使用过基于 GCC 的 ARM 编译器,我可以使用以下方法轻松删除未使用的代码: -fdata-sections
为什么下面编译: ITE EQ MRSEQ R0, MSP MRSNE R0, PSP 但这不是: ITT NE MRSNE R0, PSP MRSEQ R0, MSP MRSNE R0,PSP和MR
我正在使用 armcc 和 armlink 来编译和链接我的程序。编译源代码后,我试图用 armlink 命令链接它们,但我得到了这个错误: fatal error :./Release/Source
我在使用 ARMCC 编译代码时遇到问题。以下是我的代码(代码仅供测试)。 void COptimizerAppUi::DoRealWorksByRef(COptimizerAppUi& aObjec
我正在将一些软件从 gcc 工具链移植到 armcc 工具链(处理器保持不变 (Cortex-A9))。在 C 代码中使用了 memcpy。 armcc 通过调用 __aeabi_memcpy 替换了
int main(){ __asm volatile { // load data vld1.16 {q0, q1}, [r0]! ... 使用命令 armcc --cpu=Corte
我尝试使用外部 MCU (EFM32) 使 BLE121LR 模块工作。据我了解,这段代码声明了将结构转换为二进制数据,对吗?有人可以向我解释如何为其添加 ARM (EFM32) 支持吗?非常感谢!!
我正在 Keil (V5) 中建立一个基本项目。我想在我的项目中使用 C++。我正在使用 ARMCC 编译器。 我创建了一个简单的类 CTest。但似乎我的项目设置/编译器不支持 C++。 C 代码编
构建完成后,我在映射文件中找到了(i.function名称)部分。 ================================================== ==== 例如) [foo1.
最接近我的问题的线程是这些 Escaping a # symbol in a #define macro?和 How to print a pound / hash via C preprocesso
在这里引用@auselen 的回答:Using ARM NEON intrinsics to add alpha and permute ,看起来 armcc 编译器在 NEON 优化方面比 gcc
我有一个C项目,其中一些函数也是用arm neon汇编编写的,但是我无法编译它,main()所在的文件中有几个错误,而且它看起来很晦涩,我正在使用DS-5 用于编译,它可以在 MSVC 上构建并运行良
我有一个基于 STM32L4 MCU(超低功耗 Cortex-M4)的板,用于 GNSS 跟踪目的。我不使用 RTOS,所以我使用自定义调度程序。编译器和环境是KEIL uVision 5(编译器5.
我的编译器发出警告 #381-D: extra ";"在这种情况下被忽略: 我定义了一个结构,如下所示 struct example_s { u8_t foo; SOME_MACRO(bar)
我正在使用 Keil uVision4 在 STM32F2 设备上进行开发。我正在尝试使用 C++,这应该可以通过 uVision 工具链提供的 armcc(如果我错了请纠正我)实现。但是 uVisi
我有一个适用于 STM32F407 处理器的 uVision 5.13 项目,我也在使用 RTX 操作系统,我正在尝试使用一些 C++11 功能,例如作用域枚举,但是当我放置 --cpp11 编译器选
我正在尝试使用 ARM Compiler 5 armcc 编译的 .c 文件中的内联汇编中的 STM/LDM 指令生成 AXI 总线突发访问。 inline void STMIA2(uint32_t
我是一名优秀的程序员,十分优秀!