gpt4 book ai didi

audio - 给定音频源和准确转录的任何语言的时间戳音频

转载 作者:行者123 更新时间:2023-12-02 05:06:41 25 4
gpt4 key购买 nike

我希望为音频文件中的每个单词获取大致准确的时间戳。我还有原始文本与音频文件一起使用,可以用作各种交叉引用源。这类似于“音频挖掘”,我认为这是您只有输入音频的地方,而在这里我有音频和文本。

理想情况下,我希望使用开源软件来执行此操作,并且愿意接受大多数语言作为输入(例如,英语、法语、德语、西类牙语,最好是俄语和普通话)。

我什至会接受只能匹配各种单词的时间戳的解决方案(例如,如果转录不完全准确)。然后将输出文本与原始文本交叉引用以帮助重新对齐内容会更容易。

最佳答案

我在语言学研究中就是这样做的。我使用一个名为 ELAN 的程序,我只是注意到它们的版本 (4.5) 比我目前在 Mac 上安装的版本更新。该软件旨在帮助使用聋人语言,因此它支持视频和音频帧,并允许您准确对齐转录。我使用的版本是 3.9,该版本用于对单词进行某种自动分词,我认为这是您想要做的。不过,我在最新版本中没有看到该功能,也许经过一些挖掘它仍然存在。

Segmenting audio and video来自 this page .

当然,如果您需要更早的版本,您始终可以使用 ELAN 3.9。 ELAN 可以在 Mac、Linux 和 Windows 上运行,因为它是基于 Java 的(我记得)。这是 ELAN 的链接.还有其他语言注释软件。另一个非常好,但很难学。它叫做PRAAT .

希望对您有所帮助。如果我没有完全正确地理解您的需求,请告诉我,我会看看是否可以为您完善我的答案。干杯!

关于audio - 给定音频源和准确转录的任何语言的时间戳音频,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10544082/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com