c++ - 从 C 到 Neon 的双线性插值-6ren

c++ - 从 C 到 Neon 的双线性插值

转载作者：行者123 更新时间：2023-11-27 23:17:32

35

4

我正在尝试使用 Neon 对图像进行缩减采样。所以我尝试通过编写一个使用 neon 减去两个图像的函数来练习 neon，我成功了。现在我回来使用 neon 内在函数编写双线性插值。现在我有两个问题，从一行和一列中获取 4 个像素，并从 4 个像素中计算插值(灰色)，或者如果可以从一行和一列中的 8 个像素中计算插值(灰色)。我试着考虑一下，但我认为算法应该完全重写？

void resizeBilinearNeon( uint8_t *src, uint8_t *dest,  float srcWidth,  float srcHeight,  float destWidth,  float destHeight)
{

    int A, B, C, D, x, y, index;

       float x_ratio = ((float)(srcWidth-1))/destWidth ;
       float y_ratio = ((float)(srcHeight-1))/destHeight ;
       float x_diff, y_diff;

       for (int i=0;i<destHeight;i++) {
          for (int j=0;j<destWidth;j++) {
               x = (int)(x_ratio * j) ;
               y = (int)(y_ratio * i) ;
               x_diff = (x_ratio * j) - x ;
               y_diff = (y_ratio * i) - y ;
               index = y*srcWidth+x ;

               uint8x8_t pixels_r = vld1_u8 (src[index]);
               uint8x8_t pixels_c = vld1_u8 (src[index+srcWidth]);

               // Y = A(1-w)(1-h) + B(w)(1-h) + C(h)(1-w) + Dwh
               gray = (int)(
                           pixels_r[0]*(1-x_diff)*(1-y_diff) +  pixels_r[1]*(x_diff)*(1-y_diff) +
                           pixels_c[0]*(y_diff)*(1-x_diff)   +  pixels_c[1]*(x_diff*y_diff)
                           ) ;

               dest[i*w2 + j] = gray ;
           }
  }

最佳答案

Neon 肯定会帮助使用双线性过滤以任意比例进行下采样。关键是巧妙地使用了 vtbl.8 指令，它能够对来自预加载数组的 8 个连续目标像素执行并行查找表:

 d0 = a [b] c [d] e [f]  g  h, d1 =  i  j  k  l  m  n  o  p 
 d2 = q  r  s  t  u  v  [w] x, d3 = [y] z [A] B [C][D] E  F ...
 d4 = G  H  I  J  K  L   M  N, d5 =  O  P  Q  R  S  T  U  V ...

可以很容易地计算出括号中像素的小数位置:

 [b] [d] [f] [w] [y] [A] [C] [D],  accessed with vtbl.8 d6, {d0,d1,d2,d3}
 The row below would be accessed with            vtbl.8 d7, {d2,d3,d4,d5}

递增 vadd.8 d6, d30 ; with d30 = [1 1 1 1 1 ... 1] 给出原点右侧像素的查找索引等。

没有理由从两行中获取像素，只是说明这是可能的，并且如果需要，该方法也可用于实现轻微的失真。

在实时应用程序中使用例如lanzcos 可能有点矫枉过正，但使用 NEON 仍然可行。较大因子的下采样当然需要(重)过滤，但可以通过迭代平均和 2:1 抽取轻松实现，并且仅在最后使用分数采样。

对于任意8个连续的像素写入，可以计算出 vector

  x_positions = (X + [0 1 2 3 4 5 6 7]) * source_width / target_width;
  y_positions = (Y + [0 0 0 0 0 0 0 0]) * source_height / target_height;

  ptr = to_int(x_positions) + y_positions * stride;
  x_position += (ptr & 7); // this pointer arithmetic goes only for 8-bit planar
  ptr &= ~7;               // this is to adjust read pointer to qword alignment

  vld1.8 {d0,d1}, [r0]
  vld1.8 {d2,d3], [r0], r2 // wasn't this possible? (use r2==stride)

  d4 = int_part_of (x_positions);
  d5 = d4 + 1;
  d6 = fract_part_of (x_positions);
  d7 = fract_part_of (y_positions);

  vtbl.8 d8,d4,{d0,d1}  // read top row
  vtbl.8 d9,d5,{d0,d1}  // read top row +1
  MIX(d8,d9,d6)             // horizontal mix of ptr[] & ptr[1]
  vtbl.8 d10,d4,{d2,d3} // read bottom row
  vtbl.8 d11,d5,{d2,d3} // read bottom row
  MIX(d10,d11,d6)           // horizontal mix of ptr[1024] & ptr[1025]
  MIX(d8,d10,d7)

  // MIX (dst, src, fract) is a macro that somehow does linear blending
  // should be doable with ~3-4 instructions

要计算整数部分，使用 8.8 位分辨率就足够了(实际上不必计算 666+[0 1 2 3 .. 7])并将所有中间结果保存在 simd 寄存器中。

免责声明——这是概念性的伪 C/vector 代码。在 SIMD 中，有两个并行任务需要优化:所需的最少算术运算量是多少，以及如何最大程度地减少不必要的数据混洗/复制。在这方面，采用三寄存器方法的 NEON 也比 SSE 更适合严肃的 DSP。第二个方面是乘法指令的数量，第三个方面是交错指令。

关于c++ - 从 C 到 Neon 的双线性插值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15501429/

35

4

0

文章推荐： c++ - A类:public virtual B and class A:public B有什么区别

文章推荐： c++ - 使用 scanf() 阅读一小时 - 如何忽略部分输入

neon - ARM NEON 上的最佳指令吞吐量
用 ARM-NEON 编码的计算密集型算法的最佳指令吞吐量是多少？例如，如果我有一个基于大量 8 位 -> 8 位操作的简单算法，那么可以维持的最快执行速度(以每个周期的 8 位操作衡量)是多少我们
Android 构建系统，NEON 和非 NEON 构建
我想为 armv6 构建我的库，如果设备支持，我会在运行时启用一些 neon 代码。 neon 代码使用 neon 内在函数，为了能够编译它，我必须启用 armeabi-v7a，但这会影响常规的 c
neon - 使用内在函数测试 128 位 NEON 寄存器的值为 0 的最快方法？
我正在寻找使用 NEON 内在函数测试 128 NEON 寄存器是否包含全零的最快方法。我目前正在使用 3 个 OR 操作和 2 个 MOV: uint32x4_t vr = vorrq_u32(v
eclipse - 我已经成功安装了Java(希望如此)，然后继续安装Eclipse Neon。 NEON 不在运行，它会产生这些错误
“无法加载JNI共享库“C:\ Program Files(x86)\ Java \ jre1.8.0_131 \ bin \ client \ jvm.dll” 我该如何解决此错误最佳答案是否根
c++ - ARM NEON aarch64 : How to compare and update neon registers in optimized way?
实际上，我正在尝试找出一种比较从“unsigned short”数组加载的 NEON 寄存器值的好方法。由于我正在处理一个大型项目，因此无法解释共享整个代码部分。相反，我将分享一个类似的例子，以便每个
objective-c - C 对比 vDSP 对比 NEON - NEON 怎么会和 C 一样慢？
NEON 怎么会和 C 一样慢？我一直在尝试构建一个快速直方图函数，通过为输入值分配一个值(这是它们最接近的范围阈值)，将输入值分入范围。这是应用于图像的东西，因此它必须很快(假设图像数组为 640
gcc - 对于具有单独管道的 ARM，为 "-mfpu=neon-vfpv3"指定 "-mfpu=neon"比 0x104567910 有优势吗？
我的 Zynq-7000 ARM Cortex-A9 处理器同时具有 NEON 和 VFPv3 扩展，Zynq-7000-TRM 表示处理器配置为具有“VFPv3 和高级 SIMD 指令的独立管道”。
NEON 内在函数常量超出范围
我正在编译以下 ARM NEON 内在测试代码(在 Eclipse 和 Android NDK 中): void foo(uint64_t* Res) { uint64_t x = 0xff1
arm - NEON 类型转换问题
我是 NEON 内部函数(A9 处理器)的新手。我想将 uint8x16_t 转换为 int32x4_t 值。我尝试使用 vreinterpret_s32_u8 来这样做，但没有用。有人可以指导我
Eclipse Neon 不启动
Eclipse Neon 在启动期间显示错误消息框并且不会打开。该消息提供了日志文件的文件路径。在该文件中，我看到此错误消息: !ENTRY org.eclipse.e4.ui.workbench.s
ARM NEON 简单低通滤波器矢量化
我有一个简单的单极低通滤波器(用于参数平滑)，可以用以下公式解释: y[n] = (1-a) * y[n-1] + a * x[n] 如何在 ARM Neon 上有效矢量化这种情况 - 使用内在函数？
javascript - NEON 动画动画结束事件？
我用 polymer 构建了一个小型网络应用程序，并使用 NEON 动画。我想在特定动画(例如英雄动画和波纹动画)的自动测试中测量 fps。neon-animation中是否有animationEnd
Eclipse Neon 慢得可怜
有没有办法在保存文件时识别 Eclipse 发生了什么？我的 Eclipse 运行速度非常慢(保存文件需要近 3 分钟)。只需在文件中添加一个空格并保存，它就会一直显示“正在更新导航器内容查看器”和
eclipse NEON 不断卡住
Eclipse Neon 启动后不到两分钟就不断卡住。没有显示错误消息或异常，工作台只是停止响应。 .log 文件中有无数异常，例如: !ENTRY org.eclipse.ui 4 4 2016-0
Eclipse Neon - 禁用欢迎屏幕
如何禁用 Eclipse Neon 中的欢迎屏幕？虽然有 similar question for Eclipse Juno ，但建议的方法似乎在 Eclipse Neon 中不起作用。我发现的一
c - NEON 中非统一地址跳转的实现
我需要在 Neon 中实现以下循环。 int jump=4,c[8],i; //c[8] may be declared here int *src,sum=0; //**EDIT:** src p
c - NEON 比较
这个问题在这里已经有了答案: arm neon compare operations generate negative one (2 个答案) 关闭 6 年前。根据 Neon 文档: 如果一条车
c - NEON 寄存器中的添加
假设我在 neon 中有一个 64 位 d 寄存器。假设它存储值 ABCDEFGH。现在我想添加 A&E、B&F、C&G、D&H 等等。这里是否有任何内在的东西可以进行这样的操作我查看了文档，但没有
将代码转换为 Neon 程序集
我正在努力将下面的代码翻译成 Neon Assembly。任何帮助将不胜感激。 void sum(int length, int *a, int *b, int *c, int *d, char *r
用 NEON 改进的代码
我试图改进一些代码，但我做不到，所以我在这里寻求帮助，我也尝试过使用内在函数，但是如果你想使用内在函数，你需要使用 GCC 编译器，这个编译器编译速度较慢比 LLVM，那么所有的代码都会变慢，所以最好

首页

博学

6Ren·AI

商城

c++ - 从 C 到 Neon 的双线性插值