- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在执行一项任务,将每个像素有 8 位 (uint8_t
) 且每个像素只能为 0 或 1(或 255)的大型二进制标签图像转换为数组uint64_t
数字和 uint64_t
数字中的每一位代表一个标签像素。
例如,
输入数组:0 1 1 0 ... (00000000 00000001 00000001 00000000 ...)
或输入数组:0 255 255 0 ... (00000000 11111111 11111111 00000000 ...)
输出数组(number):6
(因为每个uint8_t
转换成bit后,变成0110
)
目前实现这个的C代码是:
for (int j = 0; j < width >> 6; j++) {
uint8_t* in_ptr= in + (j << 6);
uint64_t out_bits = 0;
if (in_ptr[0]) out_bits |= 0x0000000000000001;
if (in_ptr[1]) out_bits |= 0x0000000000000002;
.
.
.
if (in_ptr[63]) out_bits |= 0x8000000000000000;
*output = obits; output ++;
}
ARM NEON 能否优化此功能?请帮忙。谢谢!
最佳答案
假设输入值为 0 或 255,下面是基本版本,非常简单,特别适合有 Intel SSE/AVX 经验的人。
void foo_basic(uint8_t *pDst, uint8_t *pSrc, intptr_t length)
{
//assert(length >= 64);
//assert(length & 7 == 0);
uint8x16_t in0, in1, in2, in3;
uint8x8_t out;
const uint8x16_t mask = {1, 2, 4, 8, 16, 32, 64, 128, 1, 2, 4, 8, 16, 32, 64, 128};
length -= 64;
do {
do {
in0 = vld1q_u8(pSrc); pSrc += 16;
in1 = vld1q_u8(pSrc); pSrc += 16;
in2 = vld1q_u8(pSrc); pSrc += 16;
in3 = vld1q_u8(pSrc); pSrc += 16;
in0 &= mask;
in1 &= mask;
in2 &= mask;
in3 &= mask;
in0 = vpaddq_u8(in0, in1);
in2 = vpaddq_u8(in2, in3);
in0 = vpaddq_u8(in0, in2);
out = vpadd_u8(vget_low_u8(in0), vget_high_u8(in0));
vst1_u8(pDst, out); pDst += 8;
length -= 64;
} while (length >=0);
pSrc += length>>3;
pDst += length;
} while (length > -64);
}
然而,Neon 具有非常用户友好和高效的排列和位操作指令,允许“垂直”
void foo_advanced(uint8_t *pDst, uint8_t *pSrc, intptr_t length)
{
//assert(length >= 128);
//assert(length & 7 == 0);
uint8x16x4_t in0, in1;
uint8x16x2_t row04, row15, row26, row37;
length -= 128;
do {
do {
in0 = vld4q_u8(pSrc); pSrc += 64;
in1 = vld4q_u8(pSrc); pSrc += 64;
row04 = vuzpq_u8(in0.val[0], in1.val[0]);
row15 = vuzpq_u8(in0.val[1], in1.val[1]);
row26 = vuzpq_u8(in0.val[2], in1.val[2]);
row37 = vuzpq_u8(in0.val[3], in1.val[3]);
row04.val[0] = vsliq_n_u8(row04.val[0], row15.val[0], 1);
row26.val[0] = vsliq_n_u8(row26.val[0], row37.val[0], 1);
row04.val[1] = vsliq_n_u8(row04.val[1], row15.val[1], 1);
row26.val[1] = vsliq_n_u8(row26.val[1], row37.val[1], 1);
row04.val[0] = vsliq_n_u8(row04.val[0], row26.val[0], 2);
row04.val[1] = vsliq_n_u8(row04.val[1], row26.val[1], 2);
row04.val[0] = vsliq_n_u8(row04.val[0], row04.val[1], 4);
vst1q_u8(pDst, row04.val[0]); pDst += 16;
length -= 128;
} while (length >=0);
pSrc += length>>3;
pDst += length;
} while (length > -128);
}
只有 Neon 的高级版本更短更快,但是 GCC
在处理 Neon 特定的排列指令如 vtrn
、vzip
时非常糟糕code> 和 vuzp
。
https://godbolt.org/z/bGdbohqKe
Clang
也好不到哪里去:它发送不必要的 vorr
垃圾邮件,其中 GCC
对 vmov
执行相同的操作。
.syntax unified
.arm
.arch armv7-a
.fpu neon
.global foo_asm
.text
.func
.balign 64
foo_asm:
sub r2, r2, #128
.balign 16
1:
vld4.8 {d16, d18, d20, d22}, [r1]!
vld4.8 {d17, d19, d21, d23}, [r1]!
vld4.8 {d24, d26, d28, d30}, [r1]!
vld4.8 {d25, d27, d29, d31}, [r1]!
subs r2, r2, #128
vuzp.8 q8, q12
vuzp.8 q9, q13
vuzp.8 q10, q14
vuzp.8 q11, q15
vsli.8 q8, q9, #1
vsli.8 q10, q11, #1
vsli.8 q12, q13, #1
vsli.8 q14, q15, #1
vsli.8 q8, q10, #2
vsli.8 q12, q14, #2
vsli.8 q8, q12, #4
vst1.8 {q8}, [r0]!
bpl 1b
add r1, r1, r2
cmp r2, #-128
add r0, r0, r2, asr #3
bgt 1b
.balign 8
bx lr
.endfunc
.end
最内层的循环包括:
GCC:32 条指令
Clang:30 条指令
汇编:18 条指令
不需要火箭科学就可以找出最快的速度和速度:如果您要进行排列,切勿相信编译器。
关于ARM NEON : Convert a binary 8-bit-per-pixel image (only 0/1) to 1-bit-per-pixel?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70764147/
用 ARM-NEON 编码的计算密集型算法的最佳指令吞吐量是多少? 例如,如果我有一个基于大量 8 位 -> 8 位操作的简单算法,那么可以维持的最快执行速度(以每个周期的 8 位操作衡量)是多少我们
我想为 armv6 构建我的库,如果设备支持,我会在运行时启用一些 neon 代码。 neon 代码使用 neon 内在函数,为了能够编译它,我必须启用 armeabi-v7a,但这会影响常规的 c
我正在寻找使用 NEON 内在函数测试 128 NEON 寄存器是否包含全零的最快方法。 我目前正在使用 3 个 OR 操作和 2 个 MOV: uint32x4_t vr = vorrq_u32(v
“无法加载JNI共享库“C:\ Program Files(x86)\ Java \ jre1.8.0_131 \ bin \ client \ jvm.dll” 我该如何解决此错误 最佳答案 是否根
实际上,我正在尝试找出一种比较从“unsigned short”数组加载的 NEON 寄存器值的好方法。由于我正在处理一个大型项目,因此无法解释共享整个代码部分。相反,我将分享一个类似的例子,以便每个
NEON 怎么会和 C 一样慢? 我一直在尝试构建一个快速直方图函数,通过为输入值分配一个值(这是它们最接近的范围阈值),将输入值分入范围。这是应用于图像的东西,因此它必须很快(假设图像数组为 640
我的 Zynq-7000 ARM Cortex-A9 处理器同时具有 NEON 和 VFPv3 扩展,Zynq-7000-TRM 表示处理器配置为具有“VFPv3 和高级 SIMD 指令的独立管道”。
我正在编译以下 ARM NEON 内在测试代码(在 Eclipse 和 Android NDK 中): void foo(uint64_t* Res) { uint64_t x = 0xff1
我是 NEON 内部函数(A9 处理器)的新手。 我想将 uint8x16_t 转换为 int32x4_t 值。我尝试使用 vreinterpret_s32_u8 来这样做,但没有用。 有人可以指导我
Eclipse Neon 在启动期间显示错误消息框并且不会打开。该消息提供了日志文件的文件路径。在该文件中,我看到此错误消息: !ENTRY org.eclipse.e4.ui.workbench.s
我有一个简单的单极低通滤波器(用于参数平滑),可以用以下公式解释: y[n] = (1-a) * y[n-1] + a * x[n] 如何在 ARM Neon 上有效矢量化这种情况 - 使用内在函数?
我用 polymer 构建了一个小型网络应用程序,并使用 NEON 动画。我想在特定动画(例如英雄动画和波纹动画)的自动测试中测量 fps。neon-animation中是否有animationEnd
有没有办法在保存文件时识别 Eclipse 发生了什么? 我的 Eclipse 运行速度非常慢(保存文件需要近 3 分钟)。只需在文件中添加一个空格并保存,它就会一直显示“正在更新导航器内容查看器”和
Eclipse Neon 启动后不到两分钟就不断卡住。没有显示错误消息或异常,工作台只是停止响应。 .log 文件中有无数异常,例如: !ENTRY org.eclipse.ui 4 4 2016-0
如何禁用 Eclipse Neon 中的欢迎屏幕? 虽然有 similar question for Eclipse Juno ,但建议的方法似乎在 Eclipse Neon 中不起作用。 我发现的一
我需要在 Neon 中实现以下循环。 int jump=4,c[8],i; //c[8] may be declared here int *src,sum=0; //**EDIT:** src p
这个问题在这里已经有了答案: arm neon compare operations generate negative one (2 个答案) 关闭 6 年前。 根据 Neon 文档: 如果一条车
假设我在 neon 中有一个 64 位 d 寄存器。假设它存储值 ABCDEFGH。现在我想添加 A&E、B&F、C&G、D&H 等等。这里是否有任何内在的东西可以进行这样的操作 我查看了文档,但没有
我正在努力将下面的代码翻译成 Neon Assembly。任何帮助将不胜感激。 void sum(int length, int *a, int *b, int *c, int *d, char *r
我试图改进一些代码,但我做不到,所以我在这里寻求帮助,我也尝试过使用内在函数,但是如果你想使用内在函数,你需要使用 GCC 编译器,这个编译器编译速度较慢比 LLVM,那么所有的代码都会变慢,所以最好
我是一名优秀的程序员,十分优秀!