algorithm - FFT 有多少 FLOPS？-6ren

algorithm - FFT 有多少 FLOPS？

转载作者：塔克拉玛干更新时间：2023-11-03 04:30:32

27

4

我想知道快速傅里叶变换 (FFT) 执行了多少 FLOPS。

所以，如果我有一个 1 维数组，包含 N 个 float ，我想计算这组数字的 FFT，有多少 FLOPS 需要执行吗？

我知道这取决于所使用的算法，但最快的可用算法呢？

我也知道 FFT 的缩放比例为 N*log(N) 但这不会回答我的问题。

最佳答案

这取决于实现。最快不一定意味着最低的 FLOP 或最高的 FLOPS。速度通常是通过利用HW 架构而不是降低FLOP 来实现的。那里有太多的实现，所以没有实际代码和架构的问题是无法回答的。

我喜欢预先计算的 W 矩阵实现，因为我通常对单一分辨率矩阵使用 FFT 多次，因此无需多次计算 W每个决议。这可以显着减少每个递归层的FLOP。

例如这个DFFTcc每次迭代有 14 个 FLOP，仅使用 +,-,* 操作。假设 1D FFT 情况 N=8 并在我没有犯任何愚蠢错误的情况下使用基本数据类型:

FLOP = 8*14 + (4+4)*14 +(2+2+2+2+2)*14 +(1+1+1+1+1+1+1+1)*2 = 14*N*log2(N) + 2*N = 352

如果您使用真实输入/输出，您甚至可以降低第一个/最后一个递归层的输入/输出。但是简单的 FLOP 计数是不够的，因为有些操作比其他操作更复杂。而且 FLOP 并不是影响速度的唯一因素。

现在要获得 FLOPS，只需测量 time [s] FFT 所花费的时间:

FLOPS = FLOP/time

关于algorithm - FFT 有多少 FLOPS？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40036629/

27

4

0

文章推荐： javascript - 最大回文算法-JS

c - FLOPS 什么是真正的 FLOP
我来自这个线程:FLOPS Intel core and testing it with C (innerproduct) 当我开始编写简单的测试脚本时，我想到了几个问题。为什么是 float ？我
c++ - 如何测量 FLOPS
我如何测量 FLOPS或 IOPS ？如果我测量普通浮点加法/乘法的时间，它是否等同于 FLOPS？最佳答案 FLOPS 是每秒的浮点运算。要测量 FLOPS，您首先需要执行此类操作的代码。如果你有
c++ - 理论和实践矩阵乘法 FLOP
我的系统: 系统规范:Intel core2duo E4500 3700g内存二级缓存2M x64 fedora 17 我如何测量 flops/mflops 好吧，我使用 papi 库(读取硬件性能计
GPU FLOPS 和 FPS
我正在对一个 GPU(无法透露是哪个)进行建模以估计 OpenCL 和 OpenGL 应用程序的性能，该模型可以合理地估计正在执行的应用程序/内核/代码的 FLOPS 有没有办法从FLOPS，还是对帧
python - Tensorflow 卷积层中的 FLOP
我想知道 Tensorflow 卷积层中浮点运算的数量。当我等待这个功能在 TF 2.x 上发布时，我在 TF 1.x 上进行了尝试，结果我不明白它是如何计算的，其中之一非常糟糕令人印象深刻(检查第
c++ - 超过理论峰值 FLOPS 基准
为了测量 CPU 的峰值 FLOPS 性能，我编写了一个小的 C++ 程序。但是测量结果给我的结果比我的 CPU 的理论峰值 FLOPS 大。怎么了？这是我写的代码: #include #incl
algorithm - FFT 有多少 FLOPS？
我想知道快速傅里叶变换 (FFT) 执行了多少 FLOPS。所以，如果我有一个 1 维数组，包含 N 个 float ，我想计算这组数字的 FFT，有多少 FLOPS 需要执行吗？我知道这取决于所
c++ - 为什么经常用 FLOPS 来比较数学库？
数学库经常根据 FLOPS 进行比较。当我看到 FLOPS 与大小的关系图以及几个不同数学库的点集时，向我传达了什么信息？如果比较相同算法的两个实现或两个不同硬件上的相同软件，FLOPS 作为性能衡
c++ - 计算 FLOPS(每秒浮点运算)
如何计算应用程序的 FLOPS？如果我有执行指令的总数，我可以将它除以执行时间。但是，如何统计执行的指令数呢？我的问题很笼统，非常感谢任何语言的回答。但我希望为我的应用程序找到一个由 C/C++ 和
python - tanh 需要多少个 FLOP？
我想计算 LeNet-5 ( paper) 的每一层需要多少触发器。一些论文总共给出了其他架构的 FLOPs(1，2，3)但是，这些论文没有详细说明如何计算 FLOPs 的数量，我不知道有多少 FLO
python - TensorFlow:有没有办法测量模型的 FLOPS？
我能得到的最接近的例子是在这个问题中找到的:https://github.com/tensorflow/tensorflow/issues/899 使用这个最小的可重现代码: import tenso
opencl - 如何计算 GPGPU 硬件中的峰值 FLOPS？
我想计算图形硬件的理论峰值性能。嗯，其实我想了解一下计算。以 AMD Radeon HD 6670 为例:AMD Accelerated Parallel Processing Programmin
performance - 什么是 FLOP/s？它是衡量性能的一个很好的指标吗？
我被要求测量一个在多 CPU 系统上求解微分方程的 Fortran 程序的性能。我的雇主坚持要求我测量 FLOP/s(每秒 float 操作)并将结果与基准进行比较( LINPACK )，但我不相
c# - 如何测量我的 C# 应用程序使用的 FLOPS？
Microsoft's Parallel Programming whitepaper描述了在各种 FLOPS 阈值下最优的情况，并且 FLOPS 率是关于何时应使用特定实现的决策点。如何测量应用程
performance - 什么是 FLOP/s？它是衡量性能的一个很好的指标吗？
我被要求测量一个在多 CPU 系统上求解微分方程的 Fortran 程序的性能。我的雇主坚持要求我测量 FLOP/s(每秒 float 操作)并将结果与基准进行比较( LINPACK )，但我不相
c++ - FLOPS/IOPS 是如何计算的，它的用途是什么？
我一直在关注 OpenCL 的一些教程，很多时候人们用 FLOPS 来说话.维基百科确实解释了公式，但没有说明它的实际含义？例如，1光年= 9.4605284 × 10^15米，其实就是光在一年中行进
algorithm - 可以给我们最大 'flip-flop' 总和的子列表数组是什么？
我的问题是我得到了一个长度为 l 的数组。假设这是我的数组:[1,5,4,2,9,3,6] 我们称它为 A。这个数组可以有多个子数组，子数组的节点彼此相邻。所以我们可以有 [1,5,4] 或 [2
c - 确定我们的 ASM 程序的 FLOPS
我们必须实现一个 ASM 程序来乘以坐标方案格式 (COOS) 以及压缩行格式 (CSR) 的稀疏矩阵。现在我们已经实现了所有这些算法，我们想知道与通常的矩阵乘法相比，它们的性能要高多少。我们已经实现
go - 在 Go 中测量 FLOPS
我想编写一个 go 程序来对我的 CPU 进行基准测试并计算出我的笔记本电脑的 GFLOPS。 func benchmarkFlopTime(){ num_operations := int(
c++ - 如何达到每个周期 4 FLOP 的理论最大值？
如何在现代 x86-64 Intel CPU 上实现每周期 4 次浮点运算( double )的理论峰值性能？据我了解，SSE 需要三个周期add mul 的五个周期在大多数现代 Intel CPU

首页

博学

6Ren·AI

商城

algorithm - FFT 有多少 FLOPS？