gpt4 book ai didi

android - 音频索引 : Generating time-aligned text tags from audio file

转载 作者:行者123 更新时间:2023-12-03 01:47:59 25 4
gpt4 key购买 nike

我需要从大量长音频文件中挑选出单词和短语,最终目标是为每个短语的起点和终点生成时间戳。单词和短语是对需要时间标记的事件的描述和简单的评论。我看过对 Google 的 GAuI 的引用,但它已经消失了 (link)。我见过另一种解决方案 (Simple Audio Indexer),但它需要 IBM Watson。也许可以使用 Android 语音到文本处理器?谁能推荐一些其他的解决方案?我更喜欢使用 Python 接口(interface)的解决方案,但 Java 也是可能的。谢谢。

最佳答案

我花了很多时间试图让 Android 手机语音识别在自由格式模式下工作,但它还没有为黄金时段做好准备。我和其他人还没有找到每隔几秒钟关闭一次哔声的方法。

因此,我正在录制完整的音频文件并通过索引器运行它们。我找到了一个有趣的解决方案,叫做 Aeneas但它依赖于一个名为 eSpeak 的旧包,我无法在 OSX 上安装它(eSpeak 需要对 OSX 现在锁定的目录具有安装权限)。

接下来我继续尝试Simple Audio Indexer (赛)。在 IBM Watson BlueMix 上设置一个帐户非常轻松,它们为您提供 1000 分钟的免费 STT(语音到文本)时间。 SAI 易于安装、使用简单且运行良好。我用了pydub将我的 M4A/AAC 文件转换为 WAV。我确实遇到了需要 IBM 支持的问题,他们在两个小时内用一个运行参数解决了我的问题(需要将 inactivity_timeout 延长到默认的 30 秒以上)。现在它运作良好。

关于android - 音频索引 : Generating time-aligned text tags from audio file,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42078304/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com