- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这是计算缓冲区中不同值数量的基本算法:
unsigned getCount(const uint8_t data[16])
{
uint8_t pop[256] = { 0 };
unsigned count = 0;
for (int i = 0; i < 16; ++i)
{
uint8_t b = data[i];
if (0 == pop[b])
count++;
pop[b]++;
}
return count;
}
是否可以通过加载到 q-reg 并施展魔法,以某种方式在 neon 中有效地完成此操作?或者,我是否可以有效地说 data
具有相同的所有元素,或者仅包含两个或两个以上的不同值?
例如,使用 vminv_u8
和 vmaxv_u8
我可以找到最小和最大元素,如果它们相等,我知道 data
具有相同的元素.如果不是,那么我可以用最小值 vceq_u8
和用最大值 vceq_u8
然后 vorr_u8
这些结果并比较我所有的 1-s在结果中。基本上,在 NEON 中,它可以通过这种方式完成。有什么想法可以让它变得更好吗?
unsigned getCountNeon(const uint8_t data[16])
{
uint8x16_t s = vld1q_u8(data);
uint8x16_t smin = vdupq_n_u8(vminvq_u8(s));
uint8x16_t smax = vdupq_n_u8(vmaxvq_u8(s));
uint8x16_t res = vdupq_n_u8(1);
uint8x16_t one = vdupq_n_u8(1);
for (int i = 0; i < 14; ++i) // this obviously needs to be unrolled
{
s = vbslq_u8(vceqq_u8(s, smax), smin, s); // replace max with min
uint8x16_t smax1 = vdupq_n_u8(vmaxvq_u8(s));
res = vaddq_u8(res, vaddq_u8(vceqq_u8(smax1, smax), one));
smax = smax1;
}
res = vaddq_u8(res, vaddq_u8(vceqq_u8(smax, smin), one));
return vgetq_lane_u8(res, 0);
}
通过一些优化和改进,或许可以用 32-48 条 neon 指令处理一个 16 字节的 block 。这可以在 ARM 上做得更好吗?不太可能
我问这个问题的一些背景。当我在研究一种算法时,我正在尝试不同的方法来处理数据,但我不确定最后我会使用什么。可能有用的信息:
所以,我正在尝试一些东西,在我使用任何方法之前,我想看看该方法是否可以得到很好的优化。例如,每个 block 的平均值基本上是 arm64 上的 memcpy 速度。
最佳答案
如果您期望有很多重复项,并且可以高效使用vminv_u8
获得水平最小值,这可能比标量更好.或者不是,也许 NEON->ARM 因循环条件而停顿杀死它。 >.< 但是应该可以通过展开来缓解这种情况(并在寄存器中保存一些信息以确定您超出了多少)。
// pseudo-code because I'm too lazy to look up ARM SIMD intrinsics, edit welcome
// But I *think* ARM can do these things efficiently,
// except perhaps the loop condition. High latency could be ok, but stalling isn't
int count_dups(uint8x16_t v)
{
int dups = (0xFF == vmax_u8(v)); // count=1 if any elements are 0xFF to start
auto hmin = vmin_u8(v);
while (hmin != 0xff) {
auto min_bcast = vdup(hmin); // broadcast the minimum
auto matches = cmpeq(v, min_bcast);
v |= matches; // min and its dups become 0xFF
hmin = vmin_u8(v);
dups++;
}
return dups;
}
这会将唯一值变成 0xFF,一次一组重复项。
循环携带的dep链通过v/hmin停留在 vector 寄存器中;只有循环分支需要 NEON->integer。
按 8 展开,hmin
上没有分支,将结果留在 8 个 NEON 寄存器中。然后转移这8个值; back-to-back transfers of multiple NEON registers to ARM only incurs one total stall (Jake 测试的 14 个周期中的任何一个。)乱序执行也可以隐藏一些对这个停顿的惩罚。然后用完全展开的整数循环检查这 8 个整数寄存器。
将展开因子调整得足够大,这样您通常就不需要对大多数输入 vector 进行另一轮 SIMD 运算。如果几乎所有 vector 最多有 5 个唯一值,则展开 5 而不是 8。
不是将多个 hmin
结果转换为整数,而是用 NEON 计数。如果您可以使用 ARM32 NEON 部分寄存器技巧免费将多个 hmin
值放入同一个 vector 中,那么将其中的 8 个值洗牌到一个 vector 中并比较不等于0xFF
。然后水平添加该比较结果以获得 -count
。
或者,如果您在单个 vector 的不同元素中有来自不同输入 vector 的值,则可以使用垂直运算一次为多个输入 vector 添加结果,而无需水平运算。
几乎肯定有优化空间,但我不太了解 ARM,或 ARM 性能细节。 NEON 很难用于任何条件,因为 NEON-> 整数的性能损失很大,这与 x86 完全不同。 Glibc has a NEON memchr
在循环中使用 NEON->integer,但我不知道它是否使用它或者它是否比标量更快。
每次都将 256 字节缓冲区清零的代价很高,但我们不需要这样做。 使用序列号以避免需要重置:
++seq
;对于集合中的每个元素:
sum += (histogram[i] == seq);
histogram[i] = seq; // no data dependency on the load result, unlike ++
您可以将直方图设为 uint16_t
或 uint32_t
的数组,以避免在 uint8_t seq
回绕时需要重新归零。但随后它会占用更多的缓存空间,因此也许只是将每 254 个序列号重新归零是最有意义的。
关于c++ - 有效地计算 arm neon 中 16 字节缓冲区中不同值的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49993056/
将 ARM 处理器模式与 x86 操作模式(ring0 到 ring 3)进行比较,用户模式看起来就像 ring3,用户空间程序在其中运行。 但是,我无法将 ring0 与系统模式或主管模式联系起来。
为什么我们在 ARM 架构中有暂存寄存器?处理器如何使用它,我的意思是这个寄存器的用途是什么? 最佳答案 来自 Procedure Call Standard for the Arm Architec
我了解弱内存模型和强内存模型的基本区别。但是没有确切的弱定义,它取决于体系结构(这里是 ARM)。 我已经阅读了有关 ARM 信息中心的文档,但仍有很多内容不清楚。有人可以列出 - ARM 保证哪些内
我想在 arm 9 上分析我的代码,是否有任何分析器可以给我函数调用时间和每个函数占用的总周期?我更喜欢任何免费的分析器。我喜欢在 Linux 中使用 kcachegrind。 最佳答案 我不知道有什
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 7 年前。 Improve this qu
众所周知,对于X86架构:按下电源按钮后,机器开始执行0xFFFFFFF0处的代码,然后开始执行BIOS中的代码以进行硬件初始化。 BIOS 执行后,它使用引导加载程序将操作系统镜像加载到内存中。最后
我有 rootfs 和 klibc 文件系统。我正在创建 make 规则,而一些开发人员的编译器较旧,但没有联网。note1 我正在尝试验证所有文件都是使用 arm 仅当检测到某个版本的编译器时。我已
在部署实际应用程序之前,我们使用 ARM 模板部署 Azure 资源,作为构建过程的一部分。 到目前为止,我们所有的应用程序资源都自包含在资源组中。例如需要 SQL Server 和存储帐户的 Web
为什么 ARM Controller 在发生异常时要从 THUMB 状态返回到 ARM 状态? 最佳答案 一种解释可能是 ARM 模式是 CPU 的“ native ”操作模式,与有限的 Thumb
我正在尝试反转 128 位向量 (uint16x8) 的顺序。 例如,如果我有 a b c d e f g h 我想获得 h g f e d c b a 有没有一种简单的方法可以使用 NEON 内在函
有很多关于内存屏障的信息。大多数信息是指多核或多处理器架构。 Stackoverflow 上的某个地方还指出,单核处理器不需要内存屏障。 到目前为止,我找不到任何明确的解释,为什么单核 CPU 上不需
我想在 ARM Cortex A8 处理器上移植一小段代码。 L1 缓存和 L2 缓存都非常有限。我的程序中有 3 个数组。其中两个是顺序访问的(大小> 数组 A:6MB 和数组 B:3MB),第三个
我无法弄清楚这个 ARM 指令是做什么的: strd.w r0, r1, [r2] 我知道这是一个存储指令,它在 *r2 中存储了一些东西。但我不完全确定是什么。为什么有两个源寄存器
我很好奇为什么有些 ARM 指令(如 MUL 和 ADD)不使用桶形移位器。我想知道极限背后的理性。谢谢! 最佳答案 并不是没有使用桶形移位器;这是您无法指定它在非常具体的指令(数据处理和加载/存储)
我需要计算与 SSE 相同的操作: __m128i result1=_mm_avg_epu8 (upper, lower); 使用 NEON,我执行以下操作: uint8x16_t result1=v
我正在尝试使用 PLD 指令。我面临的问题如下: int32_t addr[10]; asm ("PLD [addr,#5]"); 我收到以下错误: Error: ARM register expec
根据 ARM 手册,应该可以访问特定 CPU 模式的存储寄存器,例如“r13_svc”。当我尝试执行此操作时,gcc 对我大喊大叫,并显示以下错误: 立即表达式需要 # 前缀 -- `mov r2,s
我正在使用 mbxxx 目标开发 Contiki 2.7。在构建我的代码时,链接器提示 .ARM.exidx 和 .data 部分的重叠 .在修改了链接器脚本 contiki-2.7/cpu/stm3
如何确定给定 ARM 处理器上是否存在 NEON 引擎?可以为此目的查询任何状态/标志寄存器吗? 最佳答案 我相信unixsmurf's answer如果使用具有特权内核的操作系统,这将与您获得的一样
如何在设备上分析我的 ARM 代码。 这是涉及 USB 和 SDH 处理的裸机代码,我看到了这个 Code Profiler for ARM但似乎很 slim ,我很熟悉DS5但如果您使用基于 lin
我是一名优秀的程序员,十分优秀!