c++ - 与 fftw3 相比错误的 2D CuFFT 逆变换-6ren

c++ - 与 fftw3 相比错误的 2D CuFFT 逆变换

转载作者：行者123 更新时间：2023-11-28 04:11:26

25

4

<分区>

我正在尝试生成一些 FFT 数学，特别是它执行两个 2D 正向变换，将它们相乘，然后进行逆变换。在逆变换之前一切顺利。我已经通过 fftw3 做到了，但是在 CuFFT 中出现了问题。大多数值是相似的，但有些是错误的，这对以后的数学有重要意义。这段代码有什么问题？

std::vector<complex> conv2dCUDA(complex *ui_anomaly, double *ds2, 
complex *u0, int anx, int any, double factor) {
    cufftComplex *b1, *b2;
    int size = 2 * anx * 2 * any;
    int memsize = size *  sizeof(cufftComplex);
    b1 = (cufftComplex *)calloc(size, sizeof(cufftComplex));
    b2 = (cufftComplex *)calloc(size, sizeof(cufftComplex));

    // filling the matrixes    

    cufftHandle plan;
    cufftComplex *ui, *g;
    checkCudaErrors(cudaMalloc((void**)&ui, memsize));
    checkCudaErrors(cudaMalloc((void**)&g,  memsize));
    checkCudaErrors(cufftPlan2d(&plan, 2 * anx, 2 * any, CUFFT_C2C));
    checkCudaErrors(cudaMemcpy(ui, (cufftComplex *)&b1[0], memsize, cudaMemcpyHostToDevice));
    checkCudaErrors(cudaMemcpy(g, (cufftComplex *)&b2[0], memsize, cudaMemcpyHostToDevice));
    checkCudaErrors(cufftExecC2C(plan, ui, ui, CUFFT_FORWARD));
    checkCudaErrors(cufftExecC2C(plan, g, g, CUFFT_FORWARD));
    int blockSize = 16;
    dim3 dimGrid(int(2 * any / blockSize) + 1, int(2 * anx / blockSize) + 1);
    dim3 dimBlock(blockSize, blockSize);

    ComplexMulAndScale<<<dimGrid, dimBlock>>>(ui, g, size, 1.0f);
    getLastCudaError("Kernel execution went wrong");

    checkCudaErrors(cudaMemcpy(b1, ui, memsize, cudaMemcpyDeviceToHost));
    std::cout << "After mult Cuda" << std::endl;
    for (auto i = 0; i < 2 * any; i++) {
       for (auto j = 0; j < 2 * anx; j++) {
            std::cout << b1[i * 2 * anx + j].x << " ";
       }
       std::cout << std::endl;
    }

    checkCudaErrors(cufftExecC2C(plan, ui, ui, CUFFT_INVERSE));
    cuComplex *inversed;
    inversed = (cuComplex*)malloc(memsize);
    checkCudaErrors(cudaMemcpy(inversed, ui, memsize, cudaMemcpyDeviceToHost));
    std::vector<complex> res(anx * any);
    for (auto i = 0; i < any; i++) {
        for (auto j = 0; j < anx; j++) {
            res[i * anx + j] = complex(inversed[i * anx * 2 + j].x * factor, inversed[i * anx * 2 + j].y * factor);
        }
    }
    std::cout << "CUDA"  << std::endl;
    for (auto i = 0; i < 2 * any; i++) {
        for (auto j = 0; j < 2 * anx; j++) {
            std::cout << inversed[i * 2 * anx + j].x << " ";
        }
        std::cout << std::endl;
    }
    checkCudaErrors(cudaFree(ui));
    checkCudaErrors(cudaFree(g));
    checkCudaErrors(cufftDestroy(plan));
    free(b1);
    free(b2);
    free(inversed);
    return res;
}

std::vector<complex> conv2d(complex *ui_anomaly, double *ds2, complex *u0, int anx, int any, double factor) {
    std::vector<complex> b1(anx * 2 * 2 * any, complex(0., 0.)), b2(anx * 2 * 2 * any, complex(0., 0.));

    // filling matrixes

    // forward fft 1 in-place
    fftw_plan p;
    p = fftw_plan_dft_2d(2 * any, 2 * anx, (fftw_complex *) (&b1[0]), (fftw_complex *) (&b1[0]),
                     FFTW_FORWARD, FFTW_ESTIMATE);
    fftw_execute(p);
    fftw_destroy_plan(p);
    // forward fft 2 in-place
    p = fftw_plan_dft_2d(2 * any, 2 * anx, (fftw_complex *) (&b2[0]), (fftw_complex *) (&b2[0]),
                     FFTW_FORWARD, FFTW_ESTIMATE);
    fftw_execute(p);
    fftw_destroy_plan(p);
    std::vector<complex> out(2 * anx * 2 * any, complex(0., 0.));

    for (auto i = 0; i < 2 * any * 2 * anx; i++) {
        out[i] = b1[i] * b2[i];
    }
    std::cout << "After mult fftw" << std::endl;
    for (auto i = 0; i < 2 * any; i++) {
        for (auto j = 0; j < 2 * anx; j++) {
            std::cout << out[i * 2 * anx + j].real() << " ";
       }
       std::cout << std::endl;
    }
    // inverse fft in-place
    p = fftw_plan_dft_2d(2 * (int) any, 2 * (int) anx, (fftw_complex *) (&out[0]), (fftw_complex *) (&out[0]),FFTW_BACKWARD, FFTW_ESTIMATE);
    fftw_execute(p);
    fftw_destroy_plan(p);

    std::vector<complex> res(anx * any);
    for (auto i = 0; i < any; i++) {
        for (auto j = 0; j < anx; j++) {
            res[i * anx + j] = out[i * anx * 2 + j] * factor;
       }
    }
    std::cout << "FFTW" << std::endl;
    for (auto i = 0; i < 2 * any; i++) {
        for (auto j = 0; j < 2 * anx; j++) {
            std::cout << out[i * 2 * anx + j].real() << " ";
        }
        std::cout << std::endl;
    }
    return res;
}

所以，这是我的代码。输出应该在两个函数中

After mult fftw
8.34304e-08 -5.99259e-07 -4.7876e-07 5.30254e-07 9.55877e-07 4.28985e-07 
-1.56375e-07 1.19699e-07 2.39276e-07 -1.68662e-08 -7.56988e-08 -3.69897e-07 
-2.66505e-07 -2.33361e-07 -5.21763e-07 -5.29126e-07 1.8915e-07 1.68158e-07 
-9.01859e-07 -2.37453e-07 -3.50661e-08 -4.11154e-07 4.14802e-07 -7.9879e-07 
2.09404e-07 6.52034e-08 1.8915e-07 4.97805e-07 3.32612e-07 -2.33361e-07 
-1.95738e-07 -3.69897e-07 -1.63577e-07 1.07737e-07 2.39276e-07 2.50198e-07 
FFTW
-1.57349e-06 -7.5964e-06 -1.57349e-06 1.68876e-06 5.82335e-22 1.68876e-06 
2.37158e-06 6.35275e-22 2.37158e-06 -1.18579e-06 1.05879e-22 -1.18579e-06 
-1.57349e-06 -7.5964e-06 -1.57349e-06 1.68876e-06 1.97573e-22 1.68876e-06 
3.14928e-06 2.37158e-06 3.14928e-06 -4.94164e-07 5.82335e-22 -4.94164e-07 
2.11758e-22 -8.47033e-22 -1.05879e-22 5.29396e-22 1.41851e-23 1.05879e-22 
3.14928e-06 2.37158e-06 3.14928e-06 -4.94164e-07 1.05879e-22 -4.94164e-07 

After mult Cuda
8.34303e-08 -5.99259e-07 -4.78761e-07 5.30254e-07 9.55877e-07 4.28985e-07 
-1.56375e-07 1.19699e-07 2.39276e-07 -1.68662e-08 -7.56988e-08 -3.69897e-07 
-2.66505e-07 -2.33361e-07 -5.21763e-07 -5.29126e-07 1.8915e-07 1.68158e-07 
-9.01859e-07 -2.37453e-07 -3.50661e-08 -4.11154e-07 4.14802e-07 -7.9879e-07 
2.09404e-07 6.52034e-08 1.8915e-07 4.97805e-07 3.32612e-07 -2.33361e-07 
-1.95738e-07 -3.69897e-07 -1.63577e-07 1.07737e-07 2.39276e-07 2.50198e-07 
CUDA
-1.57349e-06 -7.5964e-06 -1.57349e-06 1.68876e-06 3.33981e-13 1.68876e-06 
2.37158e-06 2.84217e-13 2.37158e-06 -1.18579e-06 1.10294e-13 -1.18579e-06 
-1.57349e-06 -7.5964e-06 -1.57349e-06 1.68876e-06 -9.03043e-14 1.68876e-06 
3.14928e-06 2.37158e-06 3.14928e-06 -4.94164e-07 4.62975e-13 -4.94164e-07 
-3.2685e-13 -1.03562e-13 -3.59548e-13 -2.13163e-13 4.27658e-15 -2.43358e-14 
3.14928e-06 2.37158e-06 3.14928e-06 -4.94164e-07 3.49288e-13 -4.94164e-07

可以看出，正向 fft 和乘法都正确，但在 cuda smth 的反向 fft 情况下出错了。

附言抱歉代码风格不佳

25

4

0

文章推荐： c++ - 我可以从这个回溯中找到导致崩溃的代码行吗？

文章推荐： javascript - 需要 HTML 表单检查 =""onclick 之前 ="window.print()"

文章推荐： c++ - 两个日志行与 c++ 中的 log4Cxx 混合

fftw - fftw 输出取决于输入的大小吗？
上周我一直在用 FFTW 编程一些二维卷积，方法是将两个信号传递到频域，相乘，然后返回。令人惊讶的是，只有当输入大小小于固定数字时，我才能得到正确的结果! 我发布了一些工作代码，其中我采用简单的初始
fftw - 给定的 FFTW lib 是否以单精度或 double 编译？
有没有办法检查 - 凋零 FFTW 是以单精度还是 double 编译的？最佳答案如果库的名称以 f 为后缀，则为单精度。否则就是双标。例如， libfftw3.a 是 double libfft
c - fortran 2d-FFTW 与 C 2d-FFTW 结果不一致
我正在学习如何使用 Fortran 处理 FFTW 包。为了生成一个易于验证的示例，我计算了一个二维平面的功率谱，我用两个不同的叠加波填充它。这样，我就可以确切地知道功率谱中的峰值在哪里。由于 FF
multithreading - 如何设置具有线程和不同精度的 FFTW？
我需要使用具有不同算术精度和多线程计划的 FFTW。我需要为所有精度设置多线程？像这样: fftwf_init_threads(); fftwf_plan_with_nthreads(nthread
c - fftw 无法正确处理真实数据
我正在尝试在 C 中使用 fftw3.3.5 进行 DFT。但是我目前在将 DFT 应用于实际数据时遇到了麻烦，它会导致一些奇怪的结果，比如极大的数字，以及不对称的东西。这是测试代码: #inclu
c++ - FFTW:只对真实结果感兴趣
我正在使用 FFTW 来计算二维复数数据的逆 DFT。默认设置(复数到复数)的输出是复数，虚部不为零。但是，我只对结果的实部感兴趣，而不对复数部分感兴趣。 FFTW 的交错实数复数输出对我来说并不理想
c++ - FFTW 性能变化
我在程序中使用 FFTW3 对 2D 数组(大约 3k x 3k，复杂数据类型)进行一些处理。该计划最激烈的部分基本上是这样做的: Break the array up into N threads
c - 真实数据序列上的 FFTW
我正在读取一个原始声音文件，并尝试对其运行 fft，目的是在最后获取 PSD，但我在开始时收到了一个错误，我可以'不太明白，希望在这里得到一些帮助，代码是: #include #include i
c - FFTW 产生真实的而不是复杂的输出
我使用以下代码来执行复数数组的 COMPLEX IFFT(我必须获得复数结果): #include #include #include #include #include #include
c++ - FFTW 导出智慧文件但无法加载
我正在努力为 FFTW 操作实现更好的性能。出于这个原因，我决定使用智慧文件来创建计划，但问题是它无法从智慧文件中加载计划(导出智慧效果很好)。我试图将智慧导出到一个文件，并在下一个程序运行时将其加载
c++ - 在多线程程序中调用 fftw
我想在线程中使用 fftw3。但是代码粘贴在http://codepad.org/lIjdGF5z导致“double free or corruption”错误。如何正确调用线程中的 fftw3 例程
c++ - 如何在加载的样本上使用 FFTW？
我的最终目标是从单声道波形文件中提取所有低于 15KHz 的声音信息。该程序将样本加载到内存中，并将其表示为 16 位有符号整数数组。我用的是FFTW，它有复数多维fft、实数多维fft、实数一维f
c++ - fftw 拆分示例崩溃
我正在尝试在拆分数组上使用 fftw (3.3.4)。我从 C/MEX 指南 (PDF: http://www.researchgate.net/publictopics.PublicPostFile
c - fftw 的头文件丢失了吗？
我安装了一个新系统和上面的所有库。但是，我对 fftw 有疑问。 cmake 命令后出现以下错误 CMake Error at /usr/share/cmake/Modules/FindPackage
c - FFTW 结果为零
我正试图让 FFTW 在 C 中工作。它曾经为另一个项目(在 JNI 中)工作，我或多或少地从那个项目中复制代码，遗憾的是没有结果。首先我生成一个正弦信号，如下所示: double* generat
c - 保存在文件中的双样本的 FFTW
我正在尝试使用 FFTW 库计算 53k 双样本的 FFT，并在此基础上猜测信号的基频是多少。样本由sndfile库在wav输入文件的基础上生成(程序加载wav文件，生成double数据的样本并保存到
使用 FFTW 计算音频数据的离散傅立叶变换
我对信号处理还很陌生，所以请原谅我的吐槽。我已经下载并安装了适用于 Windows 的 FFTW。文档没问题，但我仍有疑问。我的总体目标是从计算机上的声卡捕获以 44100 采样/秒采样的原始音频数
c - 新手线程问题 (FFTW)
我正在使用 FFTW 的线程版本(一个 FFT 库)来尝试加速双 CPU 机器上的一些代码。这是只有 1 个线程的时间输出: 131.838u 1.979s 2:13.91 99.9% 这里有 2 个
c - FFTW 1D结果以转置方式存储
我想知道是否可以存储来自 FFTW 的一维 FFT 调用的转置矩阵。考虑我的矩阵 nrows_1 x w_size。目前它存储在大小为 w_size 的 block 中 for (ix = 0 ; i
c++ - fftw - 访问冲突错误
我实现了一个 fftw (fftw.org) 示例来使用快速傅立叶变换...这是代码.... 我加载了一张我从 uint8_t 转换为 double 的图像(此代码工作正常...)。 string b

首页

博学

6Ren·AI

商城

c++ - 与 fftw3 相比错误的 2D CuFFT 逆变换