gpt4 book ai didi

python - 使用快速傅里叶变换分析音频

转载 作者:IT老高 更新时间:2023-10-28 21:07:02 28 4
gpt4 key购买 nike

我正在尝试在 python 中创建图形频谱分析仪。

我目前正在读取 16 位双 channel 44​​,100 Hz 采样率音频流的 1024 字节,并将 2 个 channel 的幅度平均在一起。所以现在我有一系列 256 条签名短裤。我现在想使用 numpy 之类的模块在该阵列上执行 fft,并使用结果创建图形频谱分析仪,开始时只有 32 条。

我已阅读有关快速傅里叶变换和离散傅里叶变换的维基百科文章,但我仍然不清楚结果数组代表什么。这是我使用 numpy 在数组上执行 fft 后数组的样子:

   [ -3.37260500e+05 +0.00000000e+00j   7.11787022e+05 +1.70667403e+04j
4.10040193e+05 +3.28653370e+05j 9.90933073e+04 +1.60555003e+05j
2.28787050e+05 +3.24141951e+05j 2.09781047e+04 +2.31063376e+05j
-2.15941453e+05 +1.63773851e+05j -7.07833051e+04 +1.52467334e+05j
-1.37440802e+05 +6.28107674e+04j -7.07536614e+03 +5.55634993e+03j
-4.31009964e+04 -1.74891657e+05j 1.39384348e+05 +1.95956947e+04j
1.73613033e+05 +1.16883207e+05j 1.15610357e+05 -2.62619884e+04j
-2.05469722e+05 +1.71343186e+05j -1.56779748e+04 +1.51258101e+05j
-2.08639913e+05 +6.07372799e+04j -2.90623668e+05 -2.79550838e+05j
-1.68112214e+05 +4.47877871e+04j -1.21289916e+03 +1.18397979e+05j
-1.55779104e+05 +5.06852464e+04j 1.95309737e+05 +1.93876325e+04j
-2.80400414e+05 +6.90079265e+04j 1.25892113e+04 -1.39293422e+05j
3.10709174e+04 -1.35248953e+05j 1.31003438e+05 +1.90799303e+05j...

我想知道这些数字究竟代表什么,以及如何将这些数字转换为 32 个条形中每个条形的高度百分比。另外,我应该将 2 个 channel 一起平均吗?

最佳答案

您显示的数组是音频信号的傅立叶变换系数。这些系数可用于获取音频的频率内容。 FFT 是为复值输入函数定义的,因此即使您的输入都是实数值,您得到的系数也将是虚数。为了获得每个频率的功率量,您需要计算每个频率的 FFT 系数的大小。这只是系数的实部,您需要计算其实部和虚部的平方和的平方根。也就是说,如果你的系数是a + b*j,那么它的大小是sqrt(a^2 + b^2)。

计算出每个 FFT 系数的幅度后,您需要弄清楚每个 FFT 系数属于哪个音频频率。 N 点 FFT 将为您提供从 0 开始的 N 个等距频率处的信号频率内容。因为您的采样频率为 44100 个样本/秒。 FFT 中的点数为 256,频率间隔为 44100/256 = 172 Hz(大约)

数组中的第一个系数将是 0 频率系数。这基本上是所有频率的平均功率水平。其余系数将从 0 以 172 Hz 的倍数递增,直到达到 128。在 FFT 中,您只能测量最多一半采样点的频率。阅读 Nyquist Frequency 上的这些链接和 Nyquist-Shannon Sampling Theorem如果您是一个贪吃惩罚的人并且需要知道原因,但基本结果是您的较低频率将被复制或aliased在较高频率的桶中。所以频率将从 0 开始,每个系数增加 172 Hz,直到 N/2 系数,然后减少 172 Hz,直到 N - 1 系数。

这应该足以让您入门。如果您想要比维基百科更容易理解的 FFT 介绍,您可以尝试 Understanding Digital Signal Processing: 2nd Ed. .这对我很有帮助。

这就是这些数字所代表的。可以通过将每个频率分量幅度按所有分量幅度之和缩放来转换为高度百分比。虽然,这只会为您提供相对频率分布的表示,而不是每个频率的实际功率。您可以尝试按频率分量可能的最大幅度进行缩放,但我不确定这会显示得很好。找到可行比例因子的最快方法是对响亮和柔和的音频信号进行试验以找到正确的设置。

最后,如果您想将整个音频信号的频率内容显示为一个整体,您应该将两个 channel 一起平均。您正在将立体声音频混合成单声道音频并显示组合频率。如果您想要两个单独的左右频率显示,则需要分别对每个 channel 执行傅里叶变换。

关于python - 使用快速傅里叶变换分析音频,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/604453/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com