audio - 立体声音频文件的程序化混合分析 - 是否将低音平移到一个 channel ？-6ren

audio - 立体声音频文件的程序化混合分析 - 是否将低音平移到一个 channel ？

转载作者：行者123 更新时间：2023-12-03 02:13:53

25

4

我想分析我的音乐收藏，这是所有 CD 音频数据(立体声 16 位 PCM，44.1kHz)。我想要做的是以编程方式确定低音是否仅混合(平移)到一个 channel 。理想情况下，我希望能够运行这样的程序

mono-bass-checker music.wav

并让它输出诸如“低音未平移”或“低音主要混合到 channel 0”之类的内容。

我对此有一个初步的开始，在伪代码中如下所示:

binsize = 2^N # define a window or FFT bin as a power of 2
while not end of audio file:
    read binsize samples from audio file
    de-interleave channels into two separate arrays
    chan0_fft_result = fft on channel 0 array
    chan1_fft_result = fft on channel 1 array
    for each index i in (number of items in chanX_fft_result/2):
        freqency_bin = i * 44100 / binsize
        # define bass as below 150 Hz (and above 30 Hz, since I can't hear it)
        if frequency_bin > 150 or frequency_bin < 30 ignore
        magnitude = sqrt(chanX_fft_result[i].real^2 + chanX_fft_result[i].complex^2)

我真的不知道从这里去哪里。我读过的一些概念，但对我来说仍然太模糊:

窗口功能。我目前没有使用一个，只是天真地从音频文件中读取 0 到 1024、1025 到 2048 等(例如 binsize=1024)。这对我有用吗？如果是这样，它是如何集成到程序中的？

幅度的标准化和/或缩放。很多人这样做是为了制作漂亮的光谱图，但我需要这样做吗？我了解人类的听力大致在对数范围内工作，所以也许我需要以某种方式按摩幅度结果以过滤掉我无论如何都无法听到的内容？像A加权这样的东西在这里吗？

装箱。我知道更大的 binsize 可以让我获得更多的频率 bin ......但我无法确定在这种情况下这是否有帮助或伤害。

我可以像这样使用 sox 生成“单声道贝司歌曲”:

sox -t null /dev/null --encoding signed-integer --bits 16 --rate 44100 --channels 1 sine40hz_mono.wav synth 5.0 sine 40.0
sox -t null /dev/null --encoding signed-integer --bits 16 --rate 44100 --channels 1 sine329hz_mono.wav synth 5.0 sine 329.6
sox -M sine40hz_mono.wav sine329hz_mono.wav sine_merged.wav

在生成的“sine_merged.wav”文件中，一个 channel 是纯低音 (40Hz)，一个是非低音 (329 Hz)。当我计算该文件的每个 channel 的低音频率幅度时，我确实看到了显着差异。但令人好奇的是，329Hz channel 具有非零低于 150Hz 的幅度。我希望它为零。

即便如此，对于这个由 sox 生成的琐碎文件，我真的不知道如何解释我正在生成的数据。显然，我不知道如何将其推广到我的实际音乐收藏中。

FWIW，我正在尝试使用 C 中的 libsndfile 和 fftw3 执行此操作，基于这些其他帖子的帮助:

WAV-file analysis C (libsndfile, fftw3)

Converting an FFT to a spectogram

How do I obtain the frequencies of each value in an FFT?

最佳答案

不使用窗口函数(与使用矩形窗口相同)会将一些高频内容(FFT 长度中不完全周期性的任何内容)飞溅到 FFT 结果的所有其他频率箱中，包括低频箱。 (有时这被称为光谱“泄漏”。)

为了尽量减少这种情况，请尝试在 FFT 之前应用窗口函数(von Hann 等)，并期望必须使用一些阈值水平，而不是期望任何 bin 中的内容为零。

另请注意，来自许多乐器的低音音符会产生一些非常强大的高频泛音或泛音，这些泛音或谐波会出现在 FFT 的上部箱中，因此您不能排除强烈的低音混音与大量高音的存在。频率内容。

关于audio - 立体声音频文件的程序化混合分析 - 是否将低音平移到一个 channel ？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21761741/

25

4

0

文章推荐： javascript - 使用文本链接播放多个音频文件

文章推荐： elasticsearch - Elasticsearch POST/delete_by_query不起作用

文章推荐： elasticsearch - Elasticsearch轻松更新唯一元素列表

audio - 如何从原始 16 位、44100 赫兹、立体声 PCM 获得正确的声音(立体声)
我正在使用 libspotify 检索音乐以使用某些音频库播放。 Spotify 音乐应为原始 16 位、44100hz、立体声 LPCM。我一直在尝试用 NAudio 播放音乐，但不幸的是它不是立体
php - 生成WAV并添加第二个(立体声) channel
我在stackoverflow上找到了以下不可思议的代码。请任何人帮助我添加第二个 channel (立体声) 将有nchannels = 2 必须(以某种方式)增加文件大小，并且必须添加2.数组(即
javascript - 如何在 WebRTC 音频通话中控制单声道/立体声？
我试图将我的音频通话强制设为单声道，我愿意使用 PCMU、G.729、OPUS 和 SpeeX 作为我的通话编解码器。现在我正在使用以下代码在我的 sdp 消息中搜索所选的编解码器: functio
ios - AudioKit - 立体声 channel 从输入翻转到输出？
我正在使用 AudioKit 创建一个实验性 iOS 音频应用程序。目前，我正在尝试将 AKStereoInput 的左声道重新路由到 AudioKit.output 的右声道，并将 AKStereo
python - 分离然后加入 .wav 立体声 channel 时出现断断续续的音频
我目前正在使用 python 处理 .wav 文件，使用 Pyaudio 流式传输音频，使用 python wave 库加载文件数据。我计划稍后包括处理单个立体声 channel ，关于信号的幅度和
c++ - OpenCV undistortPoints 和 triangulatePoint 给出奇怪的结果(立体声)
我正在尝试获取空间中几个点的 3D 坐标，但我从 undistortPoints() 和 triangulatePoints() 都得到了奇怪的结果。由于两个相机的分辨率不同，我分别校准，得到0,3
ffmpeg - 将 5.1 PRORES 转换为 Prores 立体声
我正在尝试从具有以下音轨布局的 Prores 中提取只有 2.0 的 Prores 视频(L R 在同一轨道上)。如何使用 FFmpeg 库来做到这一点？我无法从以下 ffmpeg 库规范 http
java - getAudioInputStream无法将[立体声，4字节/帧]流转换为[单声道，2字节/帧]
我正在使用javasound并具有格式的AudioInputStreamPCM_SIGNED 8000.0 Hz, 16 bit, stereo, 4 bytes/frame, little-endi
FFMPEG - Apple 720p30 环绕 MP4 H.264 AAC 立体声；杜比数码
我想要与此匹配的 FFmpeg cli 设置(这是手刹预设) 这是预设文件，我不明白这些对ffmpeg是什么。 { "AlignAVStart": false, "AudioCopyM
audio - 如何将 MKV 电影 5.1 音轨转换为 2.0(立体声)但保留原始音轨
为了解决我遇到的 5.1 电影的对话非常好的问题，我使用 FFMPEG 将我的 MKV 电影的每个音轨转换为具有音频规范化的 2.0 音轨，从而使视频和字幕保持不变。该命令如下所示: for /r
ffmpeg，立体声 + 5.1 环绕，和 YouTube 的 "Recommended upload encoding settings"
我试图理解 YouTube 在他们推荐的上传编码设置中列出的内容，以获得最佳质量。这是链接:https://support.google.com/youtube/answer/1722171#zipp
audio - ffmpeg 将 MXF 视频的多个 (N) 单声道音频 channel 合并到 MP4 视频的多个 (M) 立体声 channel
我有一个包含 16 个音频单声道流的 MXF 文件，我需要将其重新编码为一个 mp4 文件，其中 2<=n<=16 个 channel 合并输入流，例如在输出 channel 1 上输入 channe

首页

博学

6Ren·AI

商城

audio - 立体声音频文件的程序化混合分析 - 是否将低音平移到一个 channel ？