gpt4 book ai didi

artificial-intelligence - 使用多个语音转文本 API 来提高准确性

转载 作者:行者123 更新时间:2023-12-04 08:44:11 25 4
gpt4 key购买 nike

有没有人尝试过使用两个或多个语音转文本 API 来转录音频?您可以使用时间戳匹配单词,然后选择置信度最高的单词。如果有人这样做过,是否显着提高了转录的准确性?值得吗?

最佳答案

由于多种不同的原因,这种方法可能会出现问题。并非所有供应商都逐字返回置信度分数,即使他们这样做了,来自一个供应商的 60% 的置信度分数与来自不同供应商的 API 的 60% 的置信度分数并不意味着相同的事情。置信度分数仅在发布它们的 API 的上下文中有效。

目前大多数语音转文本供应商都拥有相当不错的模型。有些(如 IBM Watson)实际上允许您通过添加词汇来自定义模型。如果您查看针对 SWITCHBOARD 语料库的行业基准,您会注意到供应商不断改进并相互超越。 2016 年 9 月 13 日,Microsoft 宣布其错误率最低 (https://blogs.microsoft.com/next/2016/09/13/microsoft-researchers-achieve-speech-recognition-milestone/)。 2017 年 1 月 11 日,谷歌声称已经击败了这一点,然后 IBM 于 2017 年 3 月 7 日 (https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/) 宣布了优势。差异都是百分之几或百分之几的改进。我预计这种跨越式改进将在短期内持续下去。

总结一下 - 通过使用两种不同的 API,您可以有效地使语音到文本实现的成本翻倍 - 基于您将实现的准确性的最小改进,这很难证明是合理的。

关于artificial-intelligence - 使用多个语音转文本 API 来提高准确性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44959573/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com