gpt4 book ai didi

python - 如何获得准确的音频时基

转载 作者:行者123 更新时间:2023-12-02 22:38:02 26 4
gpt4 key购买 nike

我有兴趣使用音频文件来记录发生的事件。也就是说,我将有多个需要及时对齐的数据流,并且我想使用音频文件作为引用。因此,我想知道是否有可能获得音频流的实际时基(相对于实时时钟而言)?
我很高兴可以从采样计数和采样频率(例如16KHz)确定音频剪辑的持续时间。对于短片,这可能是一个不错的估计,但是对于长时间录制(数小时),此估计的准确性如何?我想在多个小时内保持亚秒级的精度。

换句话说,音频文件是否存储音频录制的实际开始和停止时间(以RTC(实时时钟)为引用)。这样一来,就可以为音频文件中的每个样本生成时基。如果是这样,我可以从python音频库中获取此数据吗?

我正在使用MP4 / AAC在Android平台上进行编码,并使用pydub进行后处理。

谢谢。

最佳答案

我们想出了一个看似不合时宜的答案,但老实说对我们来说效果很好。似乎音频格式规范不允许存储 session 开始和结束的时间码。因此,取而代之的是,我们将按下记录按钮的那一刻的开始时间戳(以毫秒为单位)编码为文件名(“2017-02-13_10-04-27-943”)中的字符串,并记录了音频 session 。然后,当记录停止时,我们捕获另一个时间戳,以毫秒为单位计算时间差,然后在关闭文件后立即在文件名中添加持续时间作为字符串(“Dur123456”)。因此,时间的开始和持续时间以Android手机上的RTC(实时时钟)为引用。然后,我们可以将WAV / PCM时基重新映射到真实的持续时间。事实证明,“16KHz”实际上不是16,000Hz。我们发现10分钟的录音大约有几秒钟的错误。看起来似乎不多,但是对于多个小时的录音来说,它加起来了。谢谢。

关于python - 如何获得准确的音频时基,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42201388/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com