c++ - 有效地计算 arm neon 中 16 字节缓冲区中不同值的数量-6ren

c++ - 有效地计算 arm neon 中 16 字节缓冲区中不同值的数量

转载作者：行者123 更新时间：2023-11-30 05:02:14

29

4

这是计算缓冲区中不同值数量的基本算法:

unsigned getCount(const uint8_t data[16])
{
    uint8_t pop[256] = { 0 };
    unsigned count = 0;
    for (int i = 0; i < 16; ++i)
    {
        uint8_t b = data[i];
        if (0 == pop[b])
            count++;
        pop[b]++;
    }
    return count;
}

是否可以通过加载到 q-reg 并施展魔法，以某种方式在 neon 中有效地完成此操作？或者，我是否可以有效地说 data 具有相同的所有元素，或者仅包含两个或两个以上的不同值？

例如，使用 vminv_u8 和 vmaxv_u8 我可以找到最小和最大元素，如果它们相等，我知道 data 具有相同的元素.如果不是，那么我可以用最小值 vceq_u8 和用最大值 vceq_u8 然后 vorr_u8 这些结果并比较我所有的 1-s在结果中。基本上，在 NEON 中，它可以通过这种方式完成。有什么想法可以让它变得更好吗？

unsigned getCountNeon(const uint8_t data[16])
{
    uint8x16_t s = vld1q_u8(data);
    uint8x16_t smin = vdupq_n_u8(vminvq_u8(s));
    uint8x16_t smax = vdupq_n_u8(vmaxvq_u8(s));
    uint8x16_t res = vdupq_n_u8(1);
    uint8x16_t one = vdupq_n_u8(1);

    for (int i = 0; i < 14; ++i) // this obviously needs to be unrolled
    {
        s = vbslq_u8(vceqq_u8(s, smax), smin, s); // replace max with min
        uint8x16_t smax1 = vdupq_n_u8(vmaxvq_u8(s));
        res = vaddq_u8(res, vaddq_u8(vceqq_u8(smax1, smax), one));
        smax = smax1;
    }
    res = vaddq_u8(res, vaddq_u8(vceqq_u8(smax, smin), one));
    return vgetq_lane_u8(res, 0);
}

通过一些优化和改进，或许可以用 32-48 条 neon 指令处理一个 16 字节的 block 。这可以在 ARM 上做得更好吗？不太可能

我问这个问题的一些背景。当我在研究一种算法时，我正在尝试不同的方法来处理数据，但我不确定最后我会使用什么。可能有用的信息:

每个 16 字节 block 的不同元素数
每 16 字节 block 重复次数最多的值
平均每 block
每个 block 的中位数
光速？..开个玩笑，它不能用 neon 从 16 字节 block 计算:)

所以，我正在尝试一些东西，在我使用任何方法之前，我想看看该方法是否可以得到很好的优化。例如，每个 block 的平均值基本上是 arm64 上的 memcpy 速度。

最佳答案

如果您期望有很多重复项，并且可以高效使用vminv_u8 获得水平最小值，这可能比标量更好.或者不是，也许 NEON->ARM 因循环条件而停顿杀死它。 >.< 但是应该可以通过展开来缓解这种情况(并在寄存器中保存一些信息以确定您超出了多少)。

// pseudo-code because I'm too lazy to look up ARM SIMD intrinsics, edit welcome
// But I *think* ARM can do these things efficiently, 
// except perhaps the loop condition.  High latency could be ok, but stalling isn't

int count_dups(uint8x16_t v)
{
    int dups = (0xFF == vmax_u8(v));   // count=1 if any elements are 0xFF to start
    auto hmin = vmin_u8(v);

    while (hmin != 0xff) {
        auto min_bcast = vdup(hmin);  // broadcast the minimum
        auto matches = cmpeq(v, min_bcast);
        v |= matches;                 // min and its dups become 0xFF
        hmin = vmin_u8(v);
        dups++;
    }
    return dups;
}

这会将唯一值变成 0xFF，一次一组重复项。

循环携带的dep链通过v/hmin停留在 vector 寄存器中；只有循环分支需要 NEON->integer。

最小化/隐藏 NEON->整数/ARM 惩罚

按 8 展开，hmin 上没有分支，将结果留在 8 个 NEON 寄存器中。然后转移这8个值； back-to-back transfers of multiple NEON registers to ARM only incurs one total stall (Jake 测试的 14 个周期中的任何一个。)乱序执行也可以隐藏一些对这个停顿的惩罚。然后用完全展开的整数循环检查这 8 个整数寄存器。

将展开因子调整得足够大，这样您通常就不需要对大多数输入 vector 进行另一轮 SIMD 运算。如果几乎所有 vector 最多有 5 个唯一值，则展开 5 而不是 8。

不是将多个 hmin 结果转换为整数，而是用 NEON 计数。如果您可以使用 ARM32 NEON 部分寄存器技巧免费将多个 hmin 值放入同一个 vector 中，那么将其中的 8 个值洗牌到一个 vector 中并比较不等于0xFF。然后水平添加该比较结果以获得 -count。

或者，如果您在单个 vector 的不同元素中有来自不同输入 vector 的值，则可以使用垂直运算一次为多个输入 vector 添加结果，而无需水平运算。

几乎肯定有优化空间，但我不太了解 ARM，或 ARM 性能细节。 NEON 很难用于任何条件，因为 NEON-> 整数的性能损失很大，这与 x86 完全不同。 Glibc has a NEON memchr在循环中使用 NEON->integer，但我不知道它是否使用它或者它是否比标量更快。

加速对标量 ARM 版本的重复调用:

每次都将 256 字节缓冲区清零的代价很高，但我们不需要这样做。 使用序列号以避免需要重置:

在每组新元素之前:++seq;

对于集合中的每个元素:

sum += (histogram[i] == seq);
histogram[i] = seq;     // no data dependency on the load result, unlike ++

您可以将直方图设为 uint16_t 或 uint32_t 的数组，以避免在 uint8_t seq 回绕时需要重新归零。但随后它会占用更多的缓存空间，因此也许只是将每 254 个序列号重新归零是最有意义的。

关于c++ - 有效地计算 arm neon 中 16 字节缓冲区中不同值的数量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49993056/

29

4

0

文章推荐： java - 如何在 Java 中为多个组合使用复选框的开关？

文章推荐： java - 从 matcher.replaceAll() 获取 $1 的值

文章推荐： Android sleep() 不阻塞 UI

文章推荐： java - 创建动态 JavaBean 或将变量动态添加到现有 JavaBean

arm - ARM 系统模式与 arm 监控模式有何不同？
将 ARM 处理器模式与 x86 操作模式(ring0 到 ring 3)进行比较，用户模式看起来就像 ring3，用户空间程序在其中运行。但是，我无法将 ring0 与系统模式或主管模式联系起来。
arm - ARM 中临时寄存器的用例是什么？
为什么我们在 ARM 架构中有暂存寄存器？处理器如何使用它，我的意思是这个寄存器的用途是什么？最佳答案来自 Procedure Call Standard for the Arm Architec
arm - ARM 弱内存模型保证了哪些顺序
我了解弱内存模型和强内存模型的基本区别。但是没有确切的弱定义，它取决于体系结构(这里是 ARM)。我已经阅读了有关 ARM 信息中心的文档，但仍有很多内容不清楚。有人可以列出 - ARM 保证哪些内
arm - ARM 的代码分析器
我想在 arm 9 上分析我的代码，是否有任何分析器可以给我函数调用时间和每个函数占用的总周期？我更喜欢任何免费的分析器。我喜欢在 Linux 中使用 kcachegrind。最佳答案我不知道有什
arm - arm 处理器中的外部中止
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 7 年前。 Improve this qu
arm - ARM 的启动过程是怎样的？
众所周知，对于X86架构:按下电源按钮后，机器开始执行0xFFFFFFF0处的代码，然后开始执行BIOS中的代码以进行硬件初始化。 BIOS 执行后，它使用引导加载程序将操作系统镜像加载到内存中。最后
arm - 为 Thumb OR Arm 编译的 ARM ELF 的脚本/工具谓词
我有 rootfs 和 klibc 文件系统。我正在创建 make 规则，而一些开发人员的编译器较旧，但没有联网。note1 我正在尝试验证所有文件都是使用 arm 仅当检测到某个版本的编译器时。我已
json - Azure ARM 模板 - 访问由一个 ARM 模板在另一个 ARM 模板中创建的资源 ID
在部署实际应用程序之前，我们使用 ARM 模板部署 Azure 资源，作为构建过程的一部分。到目前为止，我们所有的应用程序资源都自包含在资源组中。例如需要 SQL Server 和存储帐户的 Web
arm - ARM/THUMB 状态切换
为什么 ARM Controller 在发生异常时要从 THUMB 状态返回到 ARM 状态？最佳答案一种解释可能是 ARM 模式是 CPU 的“ native ”操作模式，与有限的 Thumb
arm - ARM NEON 内在函数中的反向向量顺序
我正在尝试反转 128 位向量 (uint16x8) 的顺序。例如，如果我有 a b c d e f g h 我想获得 h g f e d c b a 有没有一种简单的方法可以使用 NEON 内在函
arm - 单核 ARM 上的内存屏障
有很多关于内存屏障的信息。大多数信息是指多核或多处理器架构。 Stackoverflow 上的某个地方还指出，单核处理器不需要内存屏障。到目前为止，我找不到任何明确的解释，为什么单核 CPU 上不需
arm - 优化不同阵列的 ARM 缓存使用
我想在 ARM Cortex A8 处理器上移植一小段代码。 L1 缓存和 L2 缓存都非常有限。我的程序中有 3 个数组。其中两个是顺序访问的(大小> 数组 A:6MB 和数组 B:3MB)，第三个
arm - 对 ARM 指令感到困惑
我无法弄清楚这个 ARM 指令是做什么的: strd.w r0, r1, [r2] 我知道这是一个存储指令，它在 *r2 中存储了一些东西。但我不完全确定是什么。为什么有两个源寄存器
arm - 为什么有些 ARM 指令不使用桶形移位器？
我很好奇为什么有些 ARM 指令(如 MUL 和 ADD)不使用桶形移位器。我想知道极限背后的理性。谢谢! 最佳答案并不是没有使用桶形移位器；这是您无法指定它在非常具体的指令(数据处理和加载/存储)
arm - 平均操作 ARM NEON
我需要计算与 SSE 相同的操作: __m128i result1=_mm_avg_epu8 (upper, lower); 使用 NEON，我执行以下操作: uint8x16_t result1=v
arm - PLD在 ARM 皮层a9中的使用
我正在尝试使用 PLD 指令。我面临的问题如下: int32_t addr[10]; asm ("PLD [addr,#5]"); 我收到以下错误: Error: ARM register expec
arm - 显式访问 ARM 上的存储寄存器
根据 ARM 手册，应该可以访问特定 CPU 模式的存储寄存器，例如“r13_svc”。当我尝试执行此操作时，gcc 对我大喊大叫，并显示以下错误: 立即表达式需要 # 前缀 -- `mov r2,s
arm - 什么时候使用 .ARM.exidx
我正在使用 mbxxx 目标开发 Contiki 2.7。在构建我的代码时，链接器提示 .ARM.exidx 和 .data 部分的重叠 .在修改了链接器脚本 contiki-2.7/cpu/stm3
arm - 如何检查 ARM 上是否存在NEON？
如何确定给定 ARM 处理器上是否存在 NEON 引擎？可以为此目的查询任何状态/标志寄存器吗？最佳答案我相信unixsmurf's answer如果使用具有特权内核的操作系统，这将与您获得的一样
arm - 如何在 ARM 平台上分析裸机源代码？
如何在设备上分析我的 ARM 代码。这是涉及 USB 和 SDH 处理的裸机代码，我看到了这个 Code Profiler for ARM但似乎很 slim ，我很熟悉DS5但如果您使用基于 lin

首页

博学

6Ren·AI

商城