gpt4 book ai didi

python - 有没有一种快速的方法可以在音频文件中找到(不一定能识别)人类语音?

转载 作者:太空狗 更新时间:2023-10-29 20:16:48 25 4
gpt4 key购买 nike

我想写一个自动同步未同步字幕的程序。我想到的解决方案之一是以某种算法的方式找到人类语音并根据它调整字幕。我发现的 API(Google Speech API、Yandex SpeechKit)与服务器一起工作(这对我来说不是很方便)并且(可能)做了很多不必要的工作来确定到底说了什么,而我只需要知道某些东西已经据说。

换句话说,我想给它音频文件并得到这样的东西:

[(00:12, 00:26), (01:45, 01:49) ... , (25:21, 26:11)]

是否有一种解决方案(最好是在 python 中)只查找人类语音并在本地机器上运行?

最佳答案

您尝试执行的操作的技术术语称为 Voice Activity Detection (VAD) .有一个名为 SPEAR 的 python 库这样做(除其他外)。

关于python - 有没有一种快速的方法可以在音频文件中找到(不一定能识别)人类语音?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32594316/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com