c++ - 使用 Intel MKL 的 3D 卷积-6ren

c++ - 使用 Intel MKL 的 3D 卷积

转载作者：塔克拉玛干更新时间：2023-11-03 02:02:04

26

4

我编写了一个 C/C++ 代码，它使用 Intel MKL 来计算一个数组的 3D 卷积，该数组的大约 300×200×200元素。我想应用一个 3×3×3 或 5×5×5 的内核。 3D 输入数组和内核都有实数值。

此 3D 数组以列方式存储为 double 类型的一维数组。类似地，内核的类型为 double 并按列保存。例如，

for( int k = 0; k < nk; k++ ) // Loop through the height.
    for( int j = 0; j < nj; j++ ) // Loop through the rows.
        for( int i = 0; i < ni; i++ ) // Loop through the columns.
        {
            ijk = i + ni * j + ni * nj * k;
            my3Darray[ ijk ] = 1.0;
        }

对于卷积的计算，我想对输入数组和内核执行 not-in-place FFT 并防止它们被修改(我需要稍后在我的代码中使用它们)然后进行反向计算 in-place。

当我比较从我的代码获得的结果与通过 MATLAB 获得的结果时，它们非常不同。有人可以帮我解决这个问题吗？我的代码中缺少什么？

这是我使用的 MATLAB 代码:

a = ones( 10, 10, 10 );
kernel = ones( 3, 3, 3 );
aconvolved = convn( a, kernel, 'same' );

这是我的 C/C++ 代码:

#include <stdio.h>
#include "mkl.h"

void Conv3D(
    double *in, double *ker, double *out,
    int nRows, int nCols, int nHeights)
{

    int NI = nRows;
    int NJ = nCols;
    int NK = nHeights;

    double *in_fft  = new double [NI*NJ*NK];
    double *ker_fft = new double [NI*NJ*NK];

    DFTI_DESCRIPTOR_HANDLE fft_desc = 0;
    MKL_LONG sizes[]   = { NK, NJ, NI };
    MKL_LONG strides[] = { 0, NJ*NI, NI, 1 };

    DftiCreateDescriptor( &fft_desc, DFTI_DOUBLE, DFTI_REAL, 3, sizes     );
    DftiSetValue        (  fft_desc, DFTI_PLACEMENT     , DFTI_NOT_INPLACE);   // Out-of-place computation.
    DftiSetValue        (  fft_desc, DFTI_INPUT_STRIDES , strides         );
    DftiSetValue        (  fft_desc, DFTI_OUTPUT_STRIDES, strides         );
    DftiSetValue        (  fft_desc, DFTI_BACKWARD_SCALE, 1/NI/NJ/NK      );
    DftiCommitDescriptor(  fft_desc );

    DftiComputeForward  (  fft_desc, in , in_fft  );
    DftiComputeForward  (  fft_desc, ker, ker_fft );

    for (long long i = 0; i < (long long)NI*NJ*NK; ++i )
        out[i] = in_fft[i]*ker_fft[i];

    // In-place computation.
    DftiSetValue        (  fft_desc, DFTI_PLACEMENT, DFTI_INPLACE );
    DftiCommitDescriptor(  fft_desc      );
    DftiComputeBackward (  fft_desc, out );

    DftiFreeDescriptor  ( &fft_desc );

    delete[] in_fft;
    delete[] ker_fft;

}

int main(int argc, char* argv[])
{
    int n = 10;
    int nkernel = 3;

    double *a          = new double [n*n*n]; // This array is real.
    double *aconvolved = new double [n*n*n]; // The convolved array is also real.
    double *kernel     = new double [nkernel*nkernel*nkernel]; // kernel is real.

    // Fill the array with some 'real' numbers.
    for( int i = 0; i < n*n*n; i++ )
        a[ i ] = 1.0;

    // Fill the kernel with some 'real' numbers.
    for( int i = 0; i < nkernel*nkernel*nkernel; i++ )
        kernel[ i ] = 1.0;

    // Calculate the convolution.
    Conv3D( a, kernel, aconvolved, n, n, n );

    printf("Convolved:\n");
    for( int i = 0; i < n*n*n; i++ )
        printf( "%15.8f\n", aconvolved[i] );

    delete[] a;
    delete[] kernel;
    delete[] aconvolved;

    return 0;
}

最佳答案

您无法使用实数值频率数据(仅幅度)反转 FFT。正向 FFT 需要输出复数数据。这是通过设置 DFTI_FORWARD_DOMAIN setting 来完成的。到 DFTI_COMPLEX。

DftiCreateDescriptor( &fft_desc, DFTI_DOUBLE, DFTI_COMPLEX, 3, sizes     );

这样做也隐式地将向后域设置为复数。

您还需要一个复杂的数据类型。大概是这样的，

MKL_Complex16* in_fft  = new MKL_Complex16[NI*NJ*NK];

这意味着您必须将实部和虚部相乘:

for (size_t i = 0; i < (size_t)NI*NJ*NK; ++i) {
    out_fft[i].real = in_fft[i].real * ker_fft[i].real;
    out_fft[i].imag = in_fft[i].imag * ker_fft[i].imag;
}

逆 FFT 的输出也很复杂，假设您的输入数据是真实的，您只需获取 .real 组件，这就是您的结果。这意味着您将需要一个临时的复杂输出数组(例如，如上所述的 out_fft)。

另请注意，为避免伪影，您希望每个维度上的 fft 大小(至少)为 M+N-1。通常，您会选择次高的 2 次幂来提高速度。

我强烈建议您首先使用 FFT 在 MATLAB 中实现它。有许多这样的实现可用 ( example )，但我会从基础开始，自己制作一个简单的函数。

关于c++ - 使用 Intel MKL 的 3D 卷积，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27243493/

26

4

0

文章推荐： c++ - 匹配 bool vs const void* 重载的函数的地址

文章推荐： c++ - 为 ARM 架构编译我的 C++ 代码

文章推荐： c++ - 重置 QValidator 是否会泄漏内存？

文章推荐： linux - 将文件名插入 csv 文件的最后一列。

intel-pin - intel pin工具中图像的含义
我是Intel pin工具的新手，最近开始研究pin工具。在教程中，描述了pin工具的模式: Sometimes, however, it can be useful to look at diffe
intel-pin - intel pin工具中图像的含义
我是Intel pin工具的新手，最近开始研究pin工具。在教程中，描述了pin工具的模式: Sometimes, however, it can be useful to look at diffe
intel - 如何开始使用库 intel ipp？
我得到了这份工作:1。产生一个正弦信号。2。使用 FFT 构建其频谱。首先，我为 visual studio 2010 安装了 Intel Parallel Studio XE 2011。在 vs 2
opencl - intel-compute-runtime、intel-opencl-runtime 和 intel-opencl-sdk 之间有什么区别？
看起来 Intel 提供了许多 OpenCL 实现。 ArchWiki描述 OpenCL 实现。它说 beignet 和 intel-opencl 已弃用。那么，intel-compute-runti
intel - 如何读取 "Intel Intrinsics Guide"？
我正在尝试通过阅读 Intel Intrinsics Guide 来开始使用 AVX512 内在函数但到目前为止我发现它没有定义命名数据类型或用于解释的伪代码语法。没有这样的定义，所谓的指南对我起码没
intel - AMD 与 Intel 处理器制作可执行文件
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 4 年前。 Improv
android-studio - "Intel Atom Image"、 "Google APIs Intel Atom image"和 "Google play Intel Atom Image"之间有什么区别？
在 Android SDK 管理器中，我可以看到 3 种类型的 Intel Atom 图像。有人可以解释“Intel Atom Image”、“Google APIs Intel Atom Image
intel-pin - 使用 intel pintool 记录所有指令
我写了这个 pintool: #include "pin.H" #include #include VOID Instruction(INS ins, VOID *v) { cou
intel - 了解 Intel Intrinsics Guide 中的代码示例
我正在尝试了解 _mm256_permute2f128_ps() 的作用，但无法完全理解 intel's code-example . DEFINE SELECT4(src1, src2, contr
intel - 使用 Intel 内在函数 SSSE3 的替代方案时性能下降
我正在开发一个性能关键应用程序，该应用程序必须移植到仅支持 MMX、SSE、SSE2 和 SSE3 的英特尔凌动处理器中。我以前的应用程序支持 SSSE3 和 AVX，现在我想将其降级为 Intel
intel-pin - Intel Pin 3.0无法识别MPX指令？
我有最新版本的 Intel Pin 3.0 版本 76887。我有一个支持 MPX 的玩具示例: #include int g[10]; int main(int argc, char **arg
intel - 在 Intel 上使用 OpenSolaris 研究 SPARC 可执行结构
我想研究和比较elf、SPARC和PA-RISC的可执行文件结构。为了进行研究，我想在 Intel 机器 (Core2Duo) 上安装 OpenSolaris。但我有一个基本的疑问，它会起作用吗？
intel-mkl - 无法使用 g++ 将数学库与 intel mkl 链接
我尝试使用 g++ 用 intel mkl 11.1 进行编译: g++ -m32 test.c -lmkl_intel -lmkl_intel_thread -lmkl_core -liomp5 -
c++ - 我如何使用 intel 编译器和 intel mpi 安装 boost？
我正在按照以下说明进行操作: https://software.intel.com/en-us/articles/building-boost-with-intel-c-compiler-150 Co
c++ - -masm=intel 标志不适用于使用 Intel 语法在 gcc 编译器中运行汇编语言
我正在尝试在我的 C 程序中使用内联汇编程序 __asm，使用 Intel 语法而不是 AT&T 语法。我正在使用 gcc -S -masm=intel test.c 进行编译但它给出了错误。下面是我
c++ - Intel HD GPU 与 Intel CPU 性能比较
我是 OpenCL 的新手，目前对其性能有一些疑问。我有 Intel(R) Core(TM) i5-4460 CPU @ 3.20GHz + ubuntu + Beignet(Intel 开源 op
Makefile:Intel fortran，文件夹中的源文件，和 Intel Math Kernel Library
我在/ex 文件夹中有一个 main.f90。 f77 子程序文件在/ex/src 中。子程序文件再次使用 BLAS 和 LAPACK 库。对于 BLAS 和 LAPACK，我必须使用英特尔数学核心函
c++ - 为什么此代码链接到 Intel Compiler 2015 而不是 Intel Compiler 2018？
我的团队最近从 2015 年英特尔编译器(并行工作室)升级到 2018 年版本，我们遇到了一个链接器问题，让每个人都焦头烂额。我有以下类(为简洁起见进行了适度编辑)，用于处理子进程的包装以及与它们对
intel - 为什么 Intel Haswell XEON CPU 偶尔会错误计算 FFT 和 ART？
在最后几天，我观察到我无法解释的新工作站的行为。对这个问题做一些研究，INTEL Haswell architecture 中可能存在一个可能的错误。以及在当前的 Skylake Generation
android-emulator - Intel HAXM 安装错误 - 此计算机不支持 Intel 虚拟化技术 (VT-x)
我的 HAXM 安装存在问题。事情是这样的。每次尝试为我的计算机安装 HAXM 时，我都会收到此错误: 问题是，我的计算机支持虚拟化技术(见下图)。知道如何解决这个问题吗？最佳答案只需执行以下步骤

首页

博学

6Ren·AI

商城

c++ - 使用 Intel MKL 的 3D 卷积