gpt4 book ai didi

用 NEON 改进的代码

转载 作者:太空宇宙 更新时间:2023-11-04 03:02:47 30 4
gpt4 key购买 nike

我试图改进一些代码,但我做不到,所以我在这里寻求帮助,我也尝试过使用内在函数,但是如果你想使用内在函数,你需要使用 GCC 编译器,这个编译器编译速度较慢比 LLVM,那么所有的代码都会变慢,所以最好的选择是直接使用 asm。我把我想改进的两个功能,还有 NEON 中的代码,代码返回无意义的数字。我真的需要帮助,任何指向正确方向的点都可以帮助我很多。

我要改进的代码:

inline unsigned des(const unsigned char* v0)
{
unsigned r;
r = v0[0]*v0[0];
r += v0[1]*v0[1];
r += v0[2]*v0[2];
r += v0[3]*v0[3];
r += v0[4]*v0[4];
r += v0[5]*v0[5];
r += v0[6]*v0[6];
r += v0[7]*v0[7];
return r;
}


inline unsigned suma(const unsigned char* v0)
{
unsigned r;
r = v0[0];
r += v0[1];
r += v0[2];
r += v0[3];
r += v0[4];
r += v0[5];
r += v0[6];
r += v0[7];
return r;
}

NEON 代码不工作

unsigned desneon(unsigned v0[8])
{
asm volatile (
"vld1.32 {d2- d5}, [%0] \n\t"
"vld1.32 {d6- d9}, [%0] \n\t"
"vmul.s32 d0, d2, d6 \n\t" //d0= d2*d6
"vmla.s32 d0, d3, d7 \n\t" //d0 = d0 + d3*d7
"vmla.s32 d0, d4, d8 \n\t" //d0 = d0 + d4*d8
"vmla.s32 d0, d5, d9 \n\t" //d0 = d0 + d5*d9
"vpadd.s32 d0, d0 \n\t" //d0 = d[0] + d[1]


:: "r"(v0) :
);
}

非常感谢!!!

最佳答案

您需要实际返回值。我想你想要这样的东西:

unsigned desneon(unsigned v0[8])
{
unsigned outlo;
__asm__ volatile (
"vld1.32 {d2- d5}, [%1] \n\t"
"vld1.32 {d6- d9}, [%1] \n\t"
"vmul.s32 d0, d2, d6 \n\t" //d0= d2*d6
"vmla.s32 d0, d3, d7 \n\t" //d0 = d0 + d3*d7
"vmla.s32 d0, d4, d8 \n\t" //d0 = d0 + d4*d8
"vmla.s32 d0, d5, d9 \n\t" //d0 = d0 + d5*d9
"vpadd.s32 d0, d0 \n\t" //d0 = d[0] + d[1]
"vmov %0, r4, d0 \n\t"
:"=r"(outlo)
:"r"(v0)
:"d0", "d2", "d3", "d4", "d5", "d6", "d7", "d8", "d9", "r4"
);
return outlo;
}

我检查了一下,它似乎给了我正确的结果。正如 @Nyx0uf 所说,您可能想看看 Accelerate 框架 - 它有很多有用的东西,可以通过标准方法调用而不是手写 NEON 来完成。

关于用 NEON 改进的代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9381841/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com