gpt4 book ai didi

python-3.x - Wav 音频电平太大

转载 作者:行者123 更新时间:2023-12-03 00:12:14 25 4
gpt4 key购买 nike

我有一个用于“玻璃 splinter ”声音的单声道 wav 文件。当我使用 librosa 库在 python 中以图形方式显示它的级别时,它显示了非常大的幅度范围,介于 +/20000 而不是 +/- 1 之间。当我使用 Audacity 打开相同的 wav 文件时,级别在 +/- 1 之间。

我的问题是是什么在显示的幅度水平上产生了这种差异,我如何在 Python 中纠正它? MinMax 缩放会扭曲声音,如果可能的话我想避免它。

代码是:

from scipy.io import wavfile
fs1, glass_break_data = wavfile.read('test_break_glass_normalized.wav')

%matplotlib inline
import matplotlib.pyplot as plt
import librosa.display

sr=44100
x = glass_break_data.astype('float')

plt.figure(figsize=(14, 5))
librosa.display.waveplot(x, sr=sr)

这些是来自笔记本和 Audacity 的图像:

enter image description here

enter image description here

最佳答案

WAV 通常使用整数值来表示单个样本,而不是浮点数。所以你在 librosa 中看到的绘图对于 16 位/样本音频文件是准确的。

VLC 这样的程序在信息对话框中显示格式,包括每个样本的位深度,以便您轻松检查。
检查格式的另一种方法可能是使用 soxiffmpeg .

Audacity 将所有内容标准化为 -1 到 1 范围内的浮点数——它不会向您显示原始格式。
librosa.load() 也是如此。 — 它也归一化为 [-1,1] . wavfile.read()另一方面,不规范化。有关读取 WAV 音频的更多信息,请参阅示例 this answer .

关于python-3.x - Wav 音频电平太大,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61251862/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com