gpt4 book ai didi

audio - 直接来自音频/转录的语音到文本(语音识别)

转载 作者:行者123 更新时间:2023-12-04 04:35:01 25 4
gpt4 key购买 nike

关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。












想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。

2年前关闭。




Improve this question




需要能够使用语音到文本(语音识别)算法以高精度将包含语音的音频(例如来自 .MP3、其他音频格式)转换或转录为文本转录。
有许多可用的方法可以做到这一点,这些方法越来越准确,但专为对设备麦克风说话的语音而设计(例如 Google 翻译/相应的网络 API、iOS 版 Dragon 应用程序)。
我需要一种将音频文件直接输入语音识别引擎/API 的方法。
不想通过扬声器播放音频并用麦克风捕获它 - 长音频文件需要花费大量时间,并且会降低音频质量和由此产生的转录质量。
是否存在用于此的 Web 服务、API 或代码?假设麦克风将是源的现有服务之一是否有某种包装?

谢谢

最佳答案

现在有一个相对较新的服务,允许 Speech to Text 自动转录,以及一个用于人工编辑结果的优秀网络界面。它的:

https://trint.com/

我们已经使用了它,并对结果感到满意。转录当然不是完美的,但它是一个很好的开始,它允许准备好的人工编辑。

现在,IBM Bluemix/Watson 还提供了一个新的 API 和服务。您可以在此处试用免费演示:

https://speech-to-text-demo.mybluemix.net/

该服务在将音频(来自麦克风或音频文件)转换为文本方面做得相当不错。目前至少在演示中似乎不使用 MP3,但会使用 wav 和其他格式。此服务具有完整的 API,主要设计为内置于应用程序中。

关于audio - 直接来自音频/转录的语音到文本(语音识别),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23860104/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com