gpt4 book ai didi

android - 如何从 android 上的实时 FFT 获得最准确的音频数据?

转载 作者:行者123 更新时间:2023-11-29 00:31:18 34 4
gpt4 key购买 nike

所以我正在尝试构建一个充当实时音频分析器的 Android 应用程序,作为涉及检测和过滤掉某些声音的项目的先驱。

所以我认为我已经掌握了离散傅立叶变换的基础知识,但是我不确定进行实时频率分析的最佳参数应该是什么。

我的印象是,在理想情况下(无限计算能力),我会从 AudioRecord 类获得的 44100 样本/秒 PCM 流中获取所有样本,并将它们放入 44100 元素 fifo“窗口” (用 0 填充到 2**16,也许是锥形函数?),每次有新样本进入时在窗口上运行 FFT。这会(我认为)给我 0 - ~22 KHz 的频谱更新 44100每秒次数。

这似乎不会发生在智能手机上。问题是,我不确定我应该减少哪些计算参数,以便使其在我的 Galaxy Nexus 上易于处理,同时仍尽可能保持质量。最终我想使用灵敏度更高的外部麦克风。

我认为这将涉及在进行 FFT 之间移动窗口不止一个样本,但我不知道在什么时候这对准确性/混叠/其他任何东西比仅在较小的窗口上进行 FFT 更有害,或者如果有是我忽略的第三个选项。

使用我从 libgdx 使用的 native 实现的 KissFFT,我似乎能够在每 44100 个样本中执行 30-42 个 44100 元素的 FFT,并且仍然可以响应(这意味着缓冲区从执行的线程中填充AudioRecord.read() 的填充速度并不快于执行 fft 的线程耗尽它的速度)。

所以我的问题是:

  1. 我目前获得的性能是否就是我将要获得的最佳性能?还是因为更快的速度是可能的,所以我一定是傻了?
  2. 我对此的处理方法是否至少从根本上是正确的,或者我完全是在错误的树上咆哮?

我很乐意展示我的任何代码,如果这有助于回答我的问题,但有很多代码,所以我想我会有选择地这样做,而不是全部发布。

最佳答案

if there is a third option I'm overlooking

是的:同时执行这两项操作,减少 FFT 大小并增加步长。在评论中,您指出您想要检测“用嘴吸 Nose /咀嚼”。因此,您要做的类似于语音识别的典型任务。在那里,您通常以 10ms 的步长提取特征向量(意味着每 441 个样本 Fs = 44.1kHz)并且要转换的信号窗口大约是步长大小的两倍,因此 20ms 产生 2^X FFT 1024 个样本的大小(确保您选择的 FFT 大小是 2 的幂,因为它更快)。

窗口大小的任何增加或步长的减少都会增加数据,但主要是增加冗余。

其他提示:

  • @SztupY 正确地指出您需要在 FFT 之前对信号进行“加窗”,通常使用 Hamming-wondow。 (但这不是“过滤”,它只是将每个样本值与相应的窗口值相乘,而不累加结果)。

  • 原始 FFT 输出几乎不适合识别“用嘴吸 Nose /咀嚼”,经典识别器由处理 MFCC 序列及其增量的 HMM 或 ANN 组成。

Could the performance I'm currently getting just be the best I'm going to get? Or does it seem like I must be something stupid because much faster speeds are possible?

它接近最佳,但是您浪费了所有 CPU 能力来估计高度冗余的数据,没有给识别器留下任何 CPU 能力。

Is my approach to this at least fundamentally correct or am I barking entirely up the wrong tree?

考虑我的回答后,您可能会重新考虑您的方法。

关于android - 如何从 android 上的实时 FFT 获得最准确的音频数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15581237/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com