- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在尝试制作高斯模糊图像过滤器的移动快速版本。
我读过其他问题,例如:Fast Gaussian blur on unsigned char image- ARM Neon Intrinsics- iOS Dev
出于我的目的,我只需要一个固定大小 (7x7) 的固定 sigma (2) 高斯滤波器。
因此,在针对 ARM NEON 进行优化之前,我在 C++ 中实现了 1D Gaussian Kernel,并直接在移动环境(Android 和 NDK)中与 OpenCV GaussianBlur() 方法比较了性能。这样一来,代码的优化就会简单得多。
然而结果是我的实现比 OpenCV4Android 版本慢 10 倍。我读过 OpenCV4 Tegra 优化了 GaussianBlur 实现,但我不认为标准 OpenCV4Android 有这些优化,那么为什么我的代码这么慢?
这是我的实现(注意:在边界附近应用滤镜时,reflect101 用于像素反射):
Mat myGaussianBlur(Mat src){
Mat dst(src.rows, src.cols, CV_8UC1);
Mat temp(src.rows, src.cols, CV_8UC1);
float sum, x1, y1;
// coefficients of 1D gaussian kernel with sigma = 2
double coeffs[] = {0.06475879783, 0.1209853623, 0.1760326634, 0.1994711402, 0.1760326634, 0.1209853623, 0.06475879783};
//Normalize coeffs
float coeffs_sum = 0.9230247873f;
for (int i = 0; i < 7; i++){
coeffs[i] /= coeffs_sum;
}
// filter vertically
for(int y = 0; y < src.rows; y++){
for(int x = 0; x < src.cols; x++){
sum = 0.0;
for(int i = -3; i <= 3; i++){
y1 = reflect101(src.rows, y - i);
sum += coeffs[i + 3]*src.at<uchar>(y1, x);
}
temp.at<uchar>(y,x) = sum;
}
}
// filter horizontally
for(int y = 0; y < src.rows; y++){
for(int x = 0; x < src.cols; x++){
sum = 0.0;
for(int i = -3; i <= 3; i++){
x1 = reflect101(src.rows, x - i);
sum += coeffs[i + 3]*temp.at<uchar>(y, x1);
}
dst.at<uchar>(y,x) = sum;
}
}
return dst;
}
最佳答案
正如@PaulR 指出的那样,这里的问题的很大一部分是算法过于精确。通常最好不要让您的系数表比您的数据更精确。在这种情况下,由于您似乎正在处理 uchar
数据,因此您将大致使用 8 位系数表。
在您的 NEON 实现中保持较小的权重尤其重要,因为您的算法越窄,您一次可以处理的 channel 就越多。
除此之外,第一个突出的主要减速是在主循环中使用图像边缘反射代码。这将使大部分工作的效率降低,因为在这种情况下通常不需要做任何特殊的事情。
如果您在边缘附近使用特殊版本的循环可能会更好,然后当您安全时使用不调用该循环的简化内部循环 reflect101()
函数。
其次(与原型(prototype)代码更相关)是可以在应用加权函数之前将窗口的两翼加在一起,因为该表在两侧包含相同的系数。
sum = src.at<uchar>(y1, x) * coeffs[3];
for(int i = -3; i < 0; i++) {
int tmp = src.at<uchar>(y + i, x) + src.at<uchar>(y - i, x);
sum += coeffs[i + 3] * tmp;
}
这为您节省了每个像素的 6 次乘法运算,这是朝着围绕控制溢出条件进行一些其他优化迈出的一步。
然后还有一些与内存系统相关的其他问题。
两次通过的方法在原则上是好的,因为它可以让您免于执行大量的重新计算。不幸的是,它会将有用的数据推出 L1 缓存,这会使一切变慢。这也意味着当您将结果写入内存时,您正在量化中间总和,这会降低精度。
当您将此代码转换为 NEON 时,您需要关注的一件事是尝试将您的工作集保留在寄存器文件中,但不要在它们被完全利用之前丢弃计算。
当人们确实使用两次传递时,中间数据通常会被转置——也就是说,一列输入变成一行输出。
这是因为 CPU 真的不喜欢在输入图像的多行中获取少量数据。如果你收集一堆水平像素并过滤它们,它会更有效率(因为缓存的工作方式)。如果临时缓冲区被转置,那么第二遍也会收集一堆水平点(它们在原始方向上是垂直的)并再次转置其输出以使其以正确的方式出现。
如果您进行优化以保持工作集本地化,那么您可能不需要这种转换技巧,但值得了解它以便您可以为自己设置健康的基准性能。不幸的是,像这样的本地化确实会迫使您返回到非最佳内存获取,但是对于更广泛的数据类型,可以减轻这种损失。
关于opencv - 使用 ARM NEON 的快速高斯模糊图像滤波器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17486025/
所以我试图增强我的图像的对比度,我发现一位绅士通过在线 Gamma 校正来做到这一点,代码如下: (im/255).^0.45*255 据我了解,1/gammavalue = 0.45,其中 gamm
我有一个包含简单时间序列数据的向量(从 deSolve 矩阵中提取),用于测试目的可以是: x x r for (n in 2:length(x)) r[n] (r) [1] NA 1 1
我有这段实现 Prewitt 边缘检测的代码。我需要做的是只用一个缓冲区来实现它,也就是说,我不会创建图像的拷贝,而是编辑原始图像。所以如果我想改变值 78 的像素,我不能把新值,例如100,直到所有
我想制作一个 FIR 滤波器。我有一个系数数组 (buffer[size]) 和一个数据数组 (filter[size_filter])。我必须在两个数组之间进行卷积: for(j = 0;j < s
我正在尝试制作 IIR 滤波器。我做了FIR滤波器,但是我觉得IIR比FIR难。 我认为 IIR 与 FIR 类似,但它让我感到困惑。 我觉得过滤器是这样的 FIR : y(n) = b0(x[n])
我想在 Python 中通过窗口创建一个基本的高通 FIR 滤波器。 我的代码在下面并且是故意惯用的 - 我知道你可以(很可能)用 Python 中的一行代码完成它,但我正在学习。我使用了一个带有矩形
我正在尝试用树莓派创建一个相机来检测在走廊中移动的人(这里我假设只有移动的东西是人),并识别那些在该区域花费太多时间的人(使用计时器),我使用背景减法来检测运动并尝试使用基于相关性的跟踪器(例如 MO
我正在研究用于特征提取的超像素。我已经成功地将超像素功能应用于图像。 A = imread('kobi.png'); [L,N] = superpixels(A,5); figure BW = bou
你好 我需要在应用中使用这个 Kolmogorov 过滤器。您将一些测量数据放入其中,并使用过滤器对其进行一些平滑处理。我试着用“nchoosek”来做,但是当我尝试为 50 或更多的 I 做这件事时
我正在尝试在具有静态掩码 5x5 并在 applyFilter() 函数中进行卷积编码的图像上实现 LoG 过滤器。然而,无论我使用什么面具,我都会得到奇怪的结果。保存图像而不通过函数传递它是有效的,
我已经在 Haskell 中实现了一个 FIR 滤波器。我不太了解 FIR 滤波器,我的代码很大程度上基于现有的 C# 实现。因此,我觉得我的实现有太多的 C# 风格,而不是真正的 Haskell 风
我需要制作一个简单的带通音频滤波器。现在我使用了这个简单的 C++ 类:http://www.cardinalpeak.com/blog/a-c-class-to-implement-low-pass
CUDA NPP 库支持使用 nppiFilter_8u_C1R 命令过滤图像,但不断出现错误。我可以毫无问题地启动并运行 boxFilterNPP 示例代码。 eStatusNPP = nppiFi
我是 OpenCV 和 gabor 过滤器的新手,只想获得这样的 gabor 小波: 我在 Java 中使用这个 OpenCV 代码: double sigma_bar = 40; double th
我正在使用 FIR 滤波器对音频进行过采样。这是一个简单的典型窗口 sinc,即一个被截断和窗口化的 sinc 函数。像往常一样,它需要过去和“ future ”的样本才能工作。实际上,这意味着音频输
目前我正在尝试实现 FIR 低通滤波器。 FIR 系数在 MATLAB 中计算。现在我需要用 C++ 实现 FIR 算法。 我将一个类定义为过滤器,将 FIR 的一个函数定义为: double * F
我有一个用 C 语言实现 FIR 滤波器的家庭作业,我想知道您是否认为我理解正确。我认为解决问题的程序是: #include float FIRfloats[5]; void floatFIR(fl
我希望对图像的每条水平线应用频域滤波器,例如低通或带通。这可能使用 opencv 吗? 最佳答案 我认为您需要详细说明您的问题。也许,举一些具体的例子。 如果我将您的问题解释为: 你有一张 10 x
我的问题与 A. Levy 的解释相关: Analyze audio using Fast Fourier Transform 如何在这些复数上生成带通滤波器... [-636.00000000 +0
FIR 滤波器有一个算法,但它是 float : FIR filter implementation in C programming 如果我想要一个符合此规范的定点算法,我该怎么做? the FIR
我是一名优秀的程序员,十分优秀!