gpt4 book ai didi

ffmpeg - 音频文件的 "precision"在训练 ASR 系统期间是否重要?

转载 作者:行者123 更新时间:2023-12-04 22:48:57 26 4
gpt4 key购买 nike

我正在通过 torchaudio 将 8 kHz 的音频文件重新采样为 16 kHz。
原始文件的示例:

Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, 1 channels, s16, 128 kb/s
重采样后变成:
Stream #0:0: Audio: pcm_f32le ([3][0][0][0] / 0x0003), 16000 Hz, 1 channels, flt, 512 kb/s
所以精度已经改为 pcm_f32le .
我想知道这对 ASR 系统的训练是否重要。

最佳答案

实际上,Kaldi's doc说“目前仅支持 KSDATAFORMAT_SUBTYPE_PCM。”这使得 pcm_f32le (KSDATAFORMAT_SUBTYPE_IEEE_FLOAT 类型)不兼容。因此,仅以 PCM 格式保存:

torchaudio.save(path, waveform, sample_rate, encoding="PCM_S", bits_per_sample=16)
如果您想提高音频精度,只需增加 bits_pers_sample (在 PCM_S 编码中)。
至于您的实际问题,它很可能取决于您的数据集。所以也许尝试两种方法并选择性能更好的方法?

关于ffmpeg - 音频文件的 "precision"在训练 ASR 系统期间是否重要?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72232948/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com