gpt4 book ai didi

python - 在python中的单词上拆分语音音频文件

转载 作者:IT老高 更新时间:2023-10-28 21:10:12 24 4
gpt4 key购买 nike

我觉得这是一个相当普遍的问题,但我还没有找到合适的答案。我有许多人类语音的音频文件,我想在单词上打断,这可以通过查看波形中的停顿来启发式地完成,但是谁能指出我在 python 中自动执行此操作的函数/库?

最佳答案

更简单的方法是使用 pydub模块。最近添加了silent utilities完成所有繁重的工作,例如设置静音阈值设置静音长度。等,与提到的其他方法相比,大大简化了代码。

这是一个演示实现,灵感来自 here

设置:

我在文件“a-z.wav”中有一个音频文件,其中包含从 AZ 的英语口语字母。在当前工作目录中创建了一个子目录 splitAudio。执行演示代码后,文件被拆分为 26 个单独的文件,每个音频文件存储每个音节。

观察:部分音节被截断,可能需要修改以下参数,
min_silence_len=500
silence_thresh=-16

人们可能想根据自己的要求调整这些。

演示代码:

from pydub import AudioSegment
from pydub.silence import split_on_silence

sound_file = AudioSegment.from_wav("a-z.wav")
audio_chunks = split_on_silence(sound_file,
# must be silent for at least half a second
min_silence_len=500,

# consider it silent if quieter than -16 dBFS
silence_thresh=-16
)

for i, chunk in enumerate(audio_chunks):

out_file = ".//splitAudio//chunk{0}.wav".format(i)
print "exporting", out_file
chunk.export(out_file, format="wav")

输出:

Python 2.7.9 (default, Dec 10 2014, 12:24:55) [MSC v.1500 32 bit (Intel)] on win32
Type "copyright", "credits" or "license()" for more information.
>>> ================================ RESTART ================================
>>>
exporting .//splitAudio//chunk0.wav
exporting .//splitAudio//chunk1.wav
exporting .//splitAudio//chunk2.wav
exporting .//splitAudio//chunk3.wav
exporting .//splitAudio//chunk4.wav
exporting .//splitAudio//chunk5.wav
exporting .//splitAudio//chunk6.wav
exporting .//splitAudio//chunk7.wav
exporting .//splitAudio//chunk8.wav
exporting .//splitAudio//chunk9.wav
exporting .//splitAudio//chunk10.wav
exporting .//splitAudio//chunk11.wav
exporting .//splitAudio//chunk12.wav
exporting .//splitAudio//chunk13.wav
exporting .//splitAudio//chunk14.wav
exporting .//splitAudio//chunk15.wav
exporting .//splitAudio//chunk16.wav
exporting .//splitAudio//chunk17.wav
exporting .//splitAudio//chunk18.wav
exporting .//splitAudio//chunk19.wav
exporting .//splitAudio//chunk20.wav
exporting .//splitAudio//chunk21.wav
exporting .//splitAudio//chunk22.wav
exporting .//splitAudio//chunk23.wav
exporting .//splitAudio//chunk24.wav
exporting .//splitAudio//chunk25.wav
exporting .//splitAudio//chunk26.wav
>>>

关于python - 在python中的单词上拆分语音音频文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36458214/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com