gpt4 book ai didi

audio - 如何检测原始声音文件中的声音

转载 作者:行者123 更新时间:2023-12-03 00:52:43 24 4
gpt4 key购买 nike

我正在开发一种可以自动记录和提取语音中每个单词的软件。我用portaudio库来解决它。但是我一直坚持检测声音:我将静音的值设置为零,因此,如果采样值为零,则它必须是声音的起点或终点。但是当我运行它时,该程序创建了许多单词。我认为因为portaudio读取的值是原始数据,所以无法像这样处理。我对吗?我该如何解决?顺便说一句,我在用C++编码:D

最佳答案

要检测PCM流中是否存在信号,您可以对其进行检测。就像dprogramz所说的那样,您的声卡的本底噪声可能并不完美,因此会记录一些噪声信号(即使未连接麦克风)。

解决方案是使用VOXVAD算法来检测语音的存在。 VOX可能很棘手,因为在大多数消费级电子产品中,本底噪声相对于信号而言仅足够低到对人耳“无声”。这意味着本底噪声和信号之间的幅度差异可能很小。如果您的声卡已启用AGC,这将使其变得更加困难,因为本底噪声可能会移动。话虽如此,VOX可以在消费级设备上成功实现。只需花更多的精力来确定阈值。最好的方法是在流处于 Activity 状态时定期计算阈值。

如果这样做,我将实现VAD算法。由于您的目标是检测声音,因此无论使用哪种设备,这都应该提供可靠的结果。

关于audio - 如何检测原始声音文件中的声音,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19325227/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com