gpt4 book ai didi

speech-recognition - Microsoft Speech 产品/平台之间的差异

转载 作者:行者123 更新时间:2023-12-04 14:54:20 28 4
gpt4 key购买 nike

微软似乎提供了不少语音识别产品,我想知道它们之间的区别。

  • Microsoft Speech API ,或 SAPI。但不知何故Microsoft Cognitive Service Speech API具有相同的名称。
  • 好的,Azure 上的 Microsoft 认知服务提供 语音服务 API 必应语音 API .我假设对于语音到文本,两个 API 是相同的。
  • 然后是System.Speech.Recognition (或桌面 SAPI),Microsoft.Speech.Recognition (或服务器 SAPI)和 Windows.Media.Speech.Recognition . Herehere对三者之间的区别进行一些解释。但我的猜测是它们是基于 HMM 的旧语音识别模型,也不是神经网络模型,这三个模型都可以在没有互联网连接的情况下离线使用,对吧?
  • 对于 Azure 语音服务和必应语音 API,它们是更高级的语音模型,对吧?但我认为没有办法在我的本地机器上离线使用它们,因为它们都需要订阅验证。 (即使 Bing API 似乎有 C# desktop library ..)

  • 本质上我想要一个 离线为我的对话数据(每个录音 5-10 分钟)执行语音到文本转录的模型,它识别多说话者并输出时间戳(或时间编码输出)。我现在对所有选项都感到有些困惑。如果有人可以向我解释,我将不胜感激,非常感谢!

    最佳答案

    一个困难的问题——也是它如此困难的部分原因:我们(微软)似乎提出了一个关于“语音”和“语音 api”的不连贯的故事。虽然我在微软工作,但以下是我对此的看法。我试图对我的团队中的计划提供一些见解(认知服务语音 - 客户端 SDK),但我无法预测不那么近的 future 的所有方面。

    微软很早就认识到语音是一种重要的媒介,因此微软在其产品中启用语音的历史悠久且悠久。有非常好的语音解决方案(具有本地识别)可用,您列出了其中的一些。

    我们正在努力统一这一点,并为您提供一个地方,让您可以在 Microsoft 中找到最先进的语音解决方案。这是“Microsoft 语音服务”(https://docs.microsoft.com/de-de/azure/cognitive-services/speech-service/) - 当前处于预览状态。

    在服务方面,它将把我们的主要语音技术,如语音到文本、文本到语音、意图、翻译(和 future 的服务)整合到一个保护伞下。语音和语言模型不断改进和更新。我们正在为此服务开发客户端 SDK。随着时间的推移(今年晚些时候),该 SDK 将在所有主要操作系统(Windows、Linux、Android、iOS)上可用,并支持主要编程语言。我们将继续增强/改进 SDK 的平台和语言支持。

    这种在线服务和客户端 SDK 的组合将在今年晚些时候离开预览状态。

    我们理解拥有本地识别能力的愿望。在我们的第一个 SDK 版本中,它不会“开箱即用”(它也不是当前预览版的一部分)。 SDK 的一个目标是平台和语言之间的一致性(功能和 API)。这需要大量的工作。离线现在不在其中,我无法在这里做出任何预测,无论是功能还是时间线......

    所以从我的角度来看 - 新的语音服务和 SDK 是前进的方向。目标是在所有平台上统一 API,轻松访问所有 Microsoft 语音服务。它需要订阅 key ,它要求您已“连接”。我们正在努力在今年晚些时候让(服务器和客户端)都脱离预览状态。

    希望这可以帮助 ...

    沃尔夫冈

    关于speech-recognition - Microsoft Speech 产品/平台之间的差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50822466/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com