使用 FFT 互相关进行 C++ 模式匹配(图像)-6ren

使用 FFT 互相关进行 C++ 模式匹配(图像)

转载作者：搜寻专家更新时间：2023-10-31 02:21:40

每个人我都在尝试使用 FFT 实现模式匹配，但我不确定结果应该是什么(我想我错过了一些东西，即使阅读了很多关于这个问题的内容并尝试了很多不同的实现，这个是最好的迄今为止)。这是我的 FFT 相关函数。

void fft2d(fftw_complex**& a, int rows, int cols, bool forward = true)
{
    fftw_plan p;
    for (int i = 0; i < rows; ++i)
    {
        p = fftw_plan_dft_1d(cols, a[i], a[i], forward ? FFTW_FORWARD : FFTW_BACKWARD, FFTW_ESTIMATE);
        fftw_execute(p);
    }

    fftw_complex* t = (fftw_complex*)fftw_malloc(rows * sizeof(fftw_complex));

    for (int j = 0; j < cols; ++j)
    {
        for (int i = 0; i < rows; ++i)
        {
            t[i][0] = a[i][j][0];
            t[i][1] = a[i][j][1];
        }

        p = fftw_plan_dft_1d(rows, t, t, forward ? FFTW_FORWARD : FFTW_BACKWARD, FFTW_ESTIMATE);
        fftw_execute(p);

        for (int i = 0; i < rows; ++i)
        {
            a[i][j][0] = t[i][0];
            a[i][j][1] = t[i][1];
        }
    }

    fftw_free(t);
}

int findCorrelation(int argc, char* argv[])
{
    BMP bigImage;
    BMP keyImage;
    BMP result;
    RGBApixel blackPixel = { 0, 0, 0, 1 };
    const bool swapQuadrants = (argc == 4);

    if (argc < 3 || argc > 4) {
        cout << "correlation img1.bmp img2.bmp" << endl;
        return 1;
    }

    if (!keyImage.ReadFromFile(argv[1])) {
        return 1;
    }

    if (!bigImage.ReadFromFile(argv[2])) {
        return 1;
}
    //Preparations
    const int maxWidth = std::max(bigImage.TellWidth(), keyImage.TellWidth());
    const int maxHeight = std::max(bigImage.TellHeight(), keyImage.TellHeight());

    const int rowsCount = maxHeight;
    const int colsCount = maxWidth;

    BMP bigTemp = bigImage;
    BMP keyTemp = keyImage;

    keyImage.SetSize(maxWidth, maxHeight);
    bigImage.SetSize(maxWidth, maxHeight);

    for (int i = 0; i < rowsCount; ++i)
        for (int j = 0; j < colsCount; ++j) {
            RGBApixel p1;

            if (i < bigTemp.TellHeight() && j < bigTemp.TellWidth()) {
                p1 = bigTemp.GetPixel(j, i);
            } else {
                p1 = blackPixel;
            }

            bigImage.SetPixel(j, i, p1);

            RGBApixel p2;

            if (i < keyTemp.TellHeight() && j < keyTemp.TellWidth()) {
                p2 = keyTemp.GetPixel(j, i);
            } else {
                p2 = blackPixel;
            }

            keyImage.SetPixel(j, i, p2);
        }
    //Here is where the transforms begin
    fftw_complex **a = (fftw_complex**)fftw_malloc(rowsCount * sizeof(fftw_complex*));
    fftw_complex **b = (fftw_complex**)fftw_malloc(rowsCount * sizeof(fftw_complex*));
    fftw_complex **c = (fftw_complex**)fftw_malloc(rowsCount * sizeof(fftw_complex*));

    for (int i = 0; i < rowsCount; ++i) {

        a[i] = (fftw_complex*)fftw_malloc(colsCount * sizeof(fftw_complex));
        b[i] = (fftw_complex*)fftw_malloc(colsCount * sizeof(fftw_complex));
        c[i] = (fftw_complex*)fftw_malloc(colsCount * sizeof(fftw_complex));

        for (int j = 0; j < colsCount; ++j) {
            RGBApixel p1;

            p1 = bigImage.GetPixel(j, i);

            a[i][j][0] = (0.299*p1.Red + 0.587*p1.Green + 0.114*p1.Blue);
            a[i][j][1] = 0.0;

            RGBApixel p2;

            p2 = keyImage.GetPixel(j, i);

            b[i][j][0] = (0.299*p2.Red + 0.587*p2.Green + 0.114*p2.Blue);
            b[i][j][1] = 0.0;
        }
    }

    fft2d(a, rowsCount, colsCount);
    fft2d(b, rowsCount, colsCount);

    result.SetSize(maxWidth, maxHeight);

    for (int i = 0; i < rowsCount; ++i)
        for (int j = 0; j < colsCount; ++j) {
            fftw_complex& y = a[i][j];
            fftw_complex& x = b[i][j];

            double u = x[0], v = x[1];
            double m = y[0], n = y[1];

            c[i][j][0] = u*m + n*v;
            c[i][j][1] = v*m - u*n;

            int fx = j;
            if (fx>(colsCount / 2)) fx -= colsCount;

            int fy = i;
            if (fy>(rowsCount / 2)) fy -= rowsCount;

            float r2 = (fx*fx + fy*fy);

            const double cuttoffCoef = (maxWidth * maxHeight) / 37992.;
            if (r2<128 * 128 * cuttoffCoef)
                c[i][j][0] = c[i][j][1] = 0;
        }

    fft2d(c, rowsCount, colsCount, false);

    const int halfCols = colsCount / 2;
    const int halfRows = rowsCount / 2;

    if (swapQuadrants) {
        for (int i = 0; i < halfRows; ++i)
            for (int j = 0; j < halfCols; ++j) {
                std::swap(c[i][j][0], c[i + halfRows][j + halfCols][0]);
                std::swap(c[i][j][1], c[i + halfRows][j + halfCols][1]);
            }

        for (int i = halfRows; i < rowsCount; ++i)
            for (int j = 0; j < halfCols; ++j) {
                std::swap(c[i][j][0], c[i - halfRows][j + halfCols][0]);
                std::swap(c[i][j][1], c[i - halfRows][j + halfCols][1]);
            }
    }

    for (int i = 0; i < rowsCount; ++i)
        for (int j = 0; j < colsCount; ++j) {
            const double& g = c[i][j][0];
            RGBApixel pixel;

            pixel.Alpha = 0;
            int gInt = 255 - static_cast<int>(std::floor(g + 0.5));
            pixel.Red = gInt;
            pixel.Green = gInt;
            pixel.Blue = gInt;

            result.SetPixel(j, i, pixel);
        }


    BMP res;
    res.SetSize(maxWidth, maxHeight);

    result.WriteToFile("result.bmp");

    return 0;
}

样本输出

最佳答案

这个问题可能更适合发布在另一个网站上，如 cross validated。 (metaoptimize.com 曾经也是一个不错的网站，但它似乎已经消失了)

那说:

您可以使用 FFT 执行两种类似的操作:卷积和相关。卷积用于确定两个信号如何相互作用，而相关性可用于表示两个信号彼此之间的相似程度。确保您进行了正确的操作，因为它们通常都是通过 DFT 实现的。

对于这种类型的 DFT 应用，您通常不会在傅立叶频谱中提取任何有用的信息，除非您正在寻找两个数据源或其他任何共同的频率(例如，如果您正在比较两个桥以查看它们的支撑是否间隔相似) )。

您的第三张图片看起来很像电源域；通常我看到相关输出完全是灰色的，除非发生重叠。您的代码显然是在计算逆 DFT，所以除非我遗漏了什么，否则我对模糊外观提出的唯一其他解释可能是其中的一些“软糖因子”代码，例如:

if (r2<128 * 128 * cuttoffCoef)
  c[i][j][0] = c[i][j][1] = 0;

至于你应该期待什么:只要两个图像之间有共同的元素，你就会看到一个峰值。峰值越大，两个图像在该区域附近越相似。

一些评论和/或建议的更改:

1)卷积和相关不是尺度不变的操作。换句话说，图案图像的大小会对输出产生重大影响。

2)在相关之前标准化您的图像。

当您为前向 DFT channel 准备好图像数据时:

a[i][j][0] = (0.299*p1.Red + 0.587*p1.Green + 0.114*p1.Blue);
a[i][j][1] = 0.0;
/* ... */

你如何对图像进行灰度化是你的事(尽管我会选择 sqrt( r*r + b*b + g*g ) 之类的东西)。但是，我没有看到你做任何事情来规范化图像。

在这种情况下，“规范化”一词可以具有几种不同的含义。两种常见类型:

标准化 0.0 和 1.0 之间的值范围

标准化图像的“白度”

3)通过边缘增强过滤器运行您的图案图像。我个人使用过 canny , sobel ，我想我和其他几个人搞砸了。我记得，canny 是“quick'n dirty”，sobel 更贵，但在进行相关时我得到了可比较的结果。见 chapter 24在线免费提供的“dsp 指南”一书。整本书值得你花时间，但如果你时间不够，那么至少第 24 章会有很大帮助。

4) 在 [0, 255] 之间重新缩放输出图像；如果要实现阈值，请在此步骤之后执行，因为阈值步骤是有损的。

我对这个的内存很模糊，但我记得(为清楚起见进行了编辑):

您可以通过从整个功率谱

中划分出最大功率谱值来在 [-1.0, 1.0] 之间缩放最终图像像素(重新缩放之前)

最大功率谱值是功率谱中最中心的值(对应于最低频率)

如果你把它从功率谱中分离出来，你最终会做两倍的工作；由于 FFT 是线性的，因此您可以将除法延迟到逆 DFT 传递到您重新缩放 [0..255] 之间的像素时。

如果在重新调整大多数值后，您无法看到它们，您可以使用 ODE y' = y(1 - y) 的解决方案。 (一个例子是 sigmoid f(x) = 1 / (1 + exp(-c*x) ) ，对于一些缩放因子 c 可以提供更好的渐变)。这与提高您直观地解释结果的能力有关，而不是您可能用于以编程方式查找峰值的任何方法。

编辑我在上面说 [0, 255]。我建议您重新调整到 [128, 255] 或其他一些灰色而不是黑色的下限。

关于使用 FFT 互相关进行 C++ 模式匹配(图像)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31149187/

文章推荐： c++ - 将指向 C++ 结构的指针传递给 Ada

fft - FFT 和逆 FFT 之间有什么实际区别吗？
FFT 库(例如 FFTW 或 numpy.fft)通常提供两个函数 fft() 和 ifft()(及其用于实值输入的特殊版本)。这些功能似乎被定义为 ifft(fft(X)) == X 和 fft(
fft - 如何使用较小的 FFT 计算较大的 FFT？
如果我有一个特定大小 M(2 的幂)的 FFT 实现，我如何计算一组大小 P=k*M 的 FFT，其中 k 也是 2 的幂？ #define M 256 #define P 1024 comple
fft - 从复数 FFT 到有限场 FFT 的转换
下午好! 我正在尝试基于我已有的简单递归 FFT 实现来开发 NTT 算法。考虑以下代码(coefficients'的长度，让它为m，是2的精确幂): /// /// Calculates the
python - numpy.fft.fft 和 numpy.fft.fftfreq 有什么区别
我正在分析时间序列数据，并希望提取 5 个主要频率分量并将其用作训练机器学习模型的特征。我的数据集是 921 x 10080 。每行是一个时间序列，总共有 921 个。在探索可能的方法时，我遇到了各
python - scipy.fft 链接到 numpy.fft.fftpack.fft 的事实是否记录在任何地方？
我找不到任何官方文档来证明 scipy.fft 实际上是 numpy.fft.fftpack.fft 的链接。这是显示链接的 iPython session : In [1]: import scip
python - numpy.fft.fft 和 numpy.fft.rfft 有什么区别？
文档说 np.fft.fft 这样做: Compute the one-dimensional discrete Fourier Transform. 和 np.fft.rfft 这样做: Compu
c - 为什么 (A+B) 的 FFT 不同于 FFT(A) + FFT(B)？
近一个月来，我一直在与一个非常奇怪的错误作斗争。问你们是我最后的希望。我用 C 编写了一个程序，它集成了 2d Cahn–Hilliard equation在傅里叶(或倒数)空间中使用隐式欧拉 (IE
matlab - 来自 Matlab fft 和 Scipy fft 的 FFT 结果略有不同
我一直在制作一个例程，使用 NumPy/Scipy 测量两个光谱之间的相位差。我已经有了Matlab写的例程，所以我基本上是用NumPy重新实现了函数和相应的单元测试。但是，我发现单元测试失败了，因
fft - 关于如何使用渲染脚本实现 fft 的指南
我正在研究使用 Renderscript 对大型复杂输入数组执行 FFT。 FFT 是相当标准的，因为它涉及三个循环，但内部循环执行 FFT 中的蝶形运算。因为每个蝴蝶使用数组的不同部分，所以没有明显
fft - 如何修改 FFT 结果以均衡音乐样本
我需要通过修改 FFT 结果来均衡音乐样本。我知道如何获得每个输出虚数的频率，问题是修改这个值以获得“均衡器效果”。我需要知道如何缩放这个值。条目大小为 4096 个样本，采样率为 44100
fft - 亲吻 FFT 线程安全
我将在 kiss-fft 之前制定几个计划同时(平行)，我可以这样做吗，或者换句话说，kiss-fft 线程安全吗？谢谢最佳答案自述文件: No static data is used. Th
fft - 使用 FFTW 的零填充 FFT
要在频域中插入信号，可以在时域中填充零并执行 FFT。假设给定向量 X 中的元素数为 N 并且 Y 与 X 相同但在一侧用 N 零填充。然后下面给出相同的结果。 $$\hat{x}(k)=\sum_
fft - STFT 澄清(实时输入的 FFT)
我通过相关了解了 DFT 的工作原理，并将其用作理解 FFT 结果的基础。如果我有一个以 44.1kHz 采样的离散信号，那么这意味着如果我要获取 1 秒的数据，我将有 44,100 个样本。为了对其
fft - Ron Mayer FFT 卷积算法
有人知道 Mayer FFT 的实现吗(我不必花很多时间研究代码)？我正在尝试执行卷积，ifft 似乎产生了我称之为“镜像”的输出。换句话说，我的内核+信号长度被限制为 N/2 并且占据 n=0..
fft - Ron Mayer FFT 卷积算法
有人知道 Mayer FFT 的实现吗(我不必花很多时间研究代码)？我正在尝试执行卷积，ifft 似乎产生了我称之为“镜像”的输出。换句话说，我的内核+信号长度被限制为 N/2 并且占据 n=0..
python - numpy.fft.fft 与高精度数字的意外行为
我有以下代码...请注意#生成正弦曲线下的两行。一个使用比另一个更高的 2pi 精度值，但它们仍然应该给出几乎相同的结果。 import numpy as np import matplotlib.p
c++ - fft 的逆 fft 不返回预期数据
我正在努力确保 FFTW 做我认为它应该做的事情，但我遇到了问题。我正在使用 OpenCV 的 cv::Mat。我制作了一个测试程序，给定一个 Mat f，计算 ifft(fft(f)) 并将结果与
c - FFT 和 FFT 的逆
我是从事电信项目的计算机程序员。在我们的项目中，我必须将一系列复数更改为它们的傅立叶变换。因此我需要一个高效的 FFT 代码来满足 C89 标准。我正在使用以下代码，它运行良好: shor
python - numpy.fft.fft 是如何工作的？
我目前正在尝试了解 numpy 的 fft 函数。为此，我测试了以下假设: 我有两个函数，f(x) = x^2 和 g(x) = f'(x) = 2*x。根据傅立叶变换定律和 wolfram alph
Python NumPy - FFT 和逆 FFT？
我一直在使用 FFT，目前正在尝试使用 FFT 从文件中获取声音波形(最终对其进行修改)，然后将修改后的波形输出回文件。我得到了声波的 FFT，然后对其使用了反 FFT 函数，但输出文件听起来一点也不

搜寻专家

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

使用 FFT 互相关进行 C++ 模式匹配(图像)