gpt4 book ai didi

python - 自动将音轨与配音截屏的时间对齐

转载 作者:太空宇宙 更新时间:2023-11-03 11:54:28 26 4
gpt4 key购买 nike

我们有一些截屏需要配音成各种语言,我们有目标语言的文本脚本,如下所示:

Begining Time  Audio Narration0:0            blah nao lorep iposm...1:20           xao dok dkjv  dwv......

我们可以分别记录上面的每个单元,然后按照上面脚本中提到的在适当的开始时间对齐它。

示例:

输入:

输入N个时序值:0:0,1:20 ...然后输入N个录音

输出:

录音与上述时间一致。溢出应由系统单独检测,而下溢则由静默来填充。

是否有任何平台无关的音频 api\软件或代码片段最好是 python 允许我们根据提供的时间对齐这些音频单元?

最佳答案

如果输入的音频文件是未压缩的(即 WAV 文件等),我喜欢使用的音频库是 libsndfile。这里似乎有一个 python 包装器:https://code.google.com/p/libsndfile-python/ .考虑到这一点,其余的可以这样完成:

打开输出音频流以使用 libsndfile 写入音频数据

对于每个输入音频文件,使用 libsndfile 打开一个输入流

根据您的文本描述“脚本”提取给定音频文件的元数据信息

将所需的任何静默写入主输出流,然后将输入流中的数据写入输出流。注意当前位置/时间。对每个输入音频文件重复此步骤,检查音频剪辑目标开始时间是否始终 >= 之前记录的当前位置/时间。如果不是,那么您有重叠。

当然,您必须担心采样率匹配等问题,但这应该足以开始。此外,我不确定您是要编写单个输出文件,还是为每个输入文件编写一个输出文件,但这个答案应该足够灵活。假设它支持输入文件格式,libsndfile 将为您提供所需的所有信息(例如剪辑长度等)。

关于python - 自动将音轨与配音截屏的时间对齐,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15956392/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com