gpt4 book ai didi

c++ - 此功能是否适合 Intel 上的 SIMD?

转载 作者:塔克拉玛干 更新时间:2023-11-02 23:16:16 24 4
gpt4 key购买 nike

我正在尝试优化以下函数(稍微简化了一点,但这是我的程序花费大量时间的循环):

int f(int len, unsigned char *p) {
int i = 0;
while (i < len && p[i] >= 32 && p[i] <= 127) {
i++;
}
return i;
}

我认为它可以使用 vector 指令进行优化,但从一些研究来看,SSE 似乎不适用于在字节级别工作。该程序仅针对 OSX 上的 64 位 Intel CPU。是否有一个我没有看到的聪明的 bit-twiddling 技巧可以让我一次在 64 位上工作?带 -O3 的 llvm 没有做任何巧妙的优化。

更新:

在我的基准测试中,SIMD 代码通常是最快的(取决于输入的大小),但由于某些原因,使用 SIMD 的应用程序总体上比使用简单代码或位旋转技巧的速度慢。对于上下文,应用程序正在查找终端仿真器输入流中 ASCII 字符串子序列的长度。 ASCII 字符串得到特殊的“快速路径”处理。我只能将一个答案标记为正确,但两个都很棒。我确实对 bit twiddling 做了一个小的改进,通过这样做删除了一个 if 语句:

        while (i < len - 8) {
uint64_t bytes = *(uint64_t *)(p + i);
uint64_t middleBits = bytes & 0x6060606060606060;
uint64_t highBits = bytes & 0x8080808080808080;
middleBits |= (middleBits >> 1);
middleBits &= ~(highBits >> 2);
if ((middleBits & 0x2020202020202020) != 0x2020202020202020) {
break;
}
i += 8;
}

最佳答案

我不确定这是否是您问题的答案,也不确定这是否会大大加快您的代码速度,但这是我想到的一个想法。由于 32 等于 2^5,如果一个字节介于 32 和 128 之间,则它必须设置第 6 位或第 7 位,并清除第 8 位。您可以将测试扩展到 64 位整数,给我这样的代码:

// check whether each byte is in range 32 - 128.
unsigned bytesInRange(unsigned long long x) {
unsigned long long y, z;
if ((x & 0x8080808080808080LL) != 0) return(0);
y = x >> 1;
z = x | y;
if ((z & 0x2020202020202020LL) == 0x2020202020202020LL) return(1);
return(0);
}

int f(int len, unsigned char *p) {
int i = 0;
int len8 = len / 8;
unsigned long long *q = (unsigned long long *) p;
while (i < len8 && bytesInRange(q[i])) {
i++;
}

i = i * 8;
while (i < len && p[i] >= 32 && p[i] <= 127) {
i++;
}
return i;
}

对于需要对齐的架构,需要在第一次循环之前进行检查。

关于c++ - 此功能是否适合 Intel 上的 SIMD?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22218605/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com