speech-recognition - Microsoft Speech 产品/平台之间的差异-6ren

speech-recognition - Microsoft Speech 产品/平台之间的差异

转载作者：行者123 更新时间：2023-12-04 14:54:20

28

4

微软似乎提供了不少语音识别产品，我想知道它们之间的区别。

有Microsoft Speech API ，或 SAPI。但不知何故Microsoft Cognitive Service Speech API具有相同的名称。

好的，Azure 上的 Microsoft 认知服务提供 语音服务 API 和 必应语音 API .我假设对于语音到文本，两个 API 是相同的。

然后是System.Speech.Recognition (或桌面 SAPI)，Microsoft.Speech.Recognition (或服务器 SAPI)和 Windows.Media.Speech.Recognition . Here和 here对三者之间的区别进行一些解释。但我的猜测是它们是基于 HMM 的旧语音识别模型，也不是神经网络模型，这三个模型都可以在没有互联网连接的情况下离线使用，对吧？

对于 Azure 语音服务和必应语音 API，它们是更高级的语音模型，对吧？但我认为没有办法在我的本地机器上离线使用它们，因为它们都需要订阅验证。 (即使 Bing API 似乎有 C# desktop library ..)

本质上我想要一个离线为我的对话数据(每个录音 5-10 分钟)执行语音到文本转录的模型，它识别多说话者并输出时间戳(或时间编码输出)。我现在对所有选项都感到有些困惑。如果有人可以向我解释，我将不胜感激，非常感谢!

最佳答案

一个困难的问题——也是它如此困难的部分原因:我们(微软)似乎提出了一个关于“语音”和“语音 api”的不连贯的故事。虽然我在微软工作，但以下是我对此的看法。我试图对我的团队中的计划提供一些见解(认知服务语音 - 客户端 SDK)，但我无法预测不那么近的 future 的所有方面。

微软很早就认识到语音是一种重要的媒介，因此微软在其产品中启用语音的历史悠久且悠久。有非常好的语音解决方案(具有本地识别)可用，您列出了其中的一些。

我们正在努力统一这一点，并为您提供一个地方，让您可以在 Microsoft 中找到最先进的语音解决方案。这是“Microsoft 语音服务”(https://docs.microsoft.com/de-de/azure/cognitive-services/speech-service/) - 当前处于预览状态。

在服务方面，它将把我们的主要语音技术，如语音到文本、文本到语音、意图、翻译(和 future 的服务)整合到一个保护伞下。语音和语言模型不断改进和更新。我们正在为此服务开发客户端 SDK。随着时间的推移(今年晚些时候)，该 SDK 将在所有主要操作系统(Windows、Linux、Android、iOS)上可用，并支持主要编程语言。我们将继续增强/改进 SDK 的平台和语言支持。

这种在线服务和客户端 SDK 的组合将在今年晚些时候离开预览状态。

我们理解拥有本地识别能力的愿望。在我们的第一个 SDK 版本中，它不会“开箱即用”(它也不是当前预览版的一部分)。 SDK 的一个目标是平台和语言之间的一致性(功能和 API)。这需要大量的工作。离线现在不在其中，我无法在这里做出任何预测，无论是功能还是时间线......

所以从我的角度来看 - 新的语音服务和 SDK 是前进的方向。目标是在所有平台上统一 API，轻松访问所有 Microsoft 语音服务。它需要订阅 key ，它要求您已“连接”。我们正在努力在今年晚些时候让(服务器和客户端)都脱离预览状态。

希望这可以帮助 ...

沃尔夫冈

关于speech-recognition - Microsoft Speech 产品/平台之间的差异，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50822466/

28

4

0

文章推荐： kubernetes - 如何在 Kubernetes 上修补已部署的 Ingress 资源？

文章推荐： scala - 使用一个服务调用(List)的结果来获取另一个 List

文章推荐： html - 根据屏幕分辨率和屏幕大小调整 CSS

microsoft-graph-api - 'ImplicitMSALAuthenticationProvider' 不是从 '@microsoft/microsoft-graph-client' 导出的
我正在尝试将 Outlook API 与我的 React 应用程序集成。当我尝试使用 microsoft-graph-client 实现身份验证时，遇到以下错误。 'ImplicitMSALAuthe
microsoft-graph-api - microsoft graph BETA 使用 isfavoritebydefault 添加 Microsoft Teams channel
我正在尝试使用 Microsoft Graph Beta API 在 Microsoft Teams 中创建 channel 。在文档中，它说 channel 实体具有属性 IsFavoriteByD
microsoft-graph-api - 使用 Microsoft Graph API C# 将聊天消息发送到 Microsoft Teams channel
我的目标很简单。我想使用图形 API 将自动聊天消息发送到 MS Teams channel 。这似乎是图形 API 的测试版功能，仅在 Microsoft.Graph.Beta 中可用。我已经阅
microsoft-graph-api - 通过 Microsoft Graph API : Proxy_InternalServerError 访问 Microsoft Teams channel 消息时出错
通过委派权限获取 Teams channel 消息时(用户是团队成员): https://graph.microsoft.com/beta/teams/ {team_id}/channels/{cha
c# - Microsoft.AspNet.WebApi.OData 和 Microsoft.Data.OData 和 Microsoft.AspNet.OData 之间有什么区别？
我正在使用带有 OData 端点的 Web API 和 Entity Framework 创建一个 RESTful 服务。 Microsoft.AspNet.WebApi.OData 和 Micros
microsoft-cognitive - Microsoft Academic--如何通过DOI搜索论文？
我可以通过对标题和作者姓名的评估查询(以及解释查询)获得良好的结果。但是如果我想通过 DOI 查找论文怎么办？我可以通过扩展元数据描述(在现有搜索的属性中)获取条目的DOI信息，但是由于扩展元数据
microsoft-graph-api - Microsoft Graph中的单引号转义
我正在尝试通过displayName查询用户，但是在同时使用C#SDK和Graph Explorer发送请求时，我无法转义单引号。更新:在示例中不清楚，我遇到麻烦的搜索词是I' 查询示例: http
microsoft-fakes - Microsoft Fakes 测试项目无法加载程序集
我在使用 Microsoft fakes 的解决方案中有一个单元测试项目，当我构建它时出现以下错误。它提示无法加载的 DLL 在磁盘上。我已经打开了 Fusion 日志记录，这表明绑定(bind)成功
microsoft-teams - Microsoft Teams 来电事件
我想创建一个应用程序，当用户在 MS Teams 中接到电话时会收到通知。我的意思是我想在来电事件上订阅一些东西，然后根据来电信息做一些事情。这可能吗？到目前为止，我在 SDK 中没有看到任何事件。
microsoft-edge - Microsoft Edge 浏览器编码
如果我开发一个网站，它是否会以相同的方式在 IE11、Chrome、Firefox 和 edge 上运行，还是我们需要专门为 IE11 编写代码？我没有 Windows 8，因此无法在边缘浏览器上测试
microsoft-graph-api - Microsoft 图形通知停止工作
我几个月前为某些收件箱创建了一些订阅，系统成功收到了有关收到电子邮件的通知，订阅也定期更新以增加到期日期。这是我的订阅列表: https://graph.microsoft.com/v1.0/subs
microsoft-edge - Microsoft Edge 浏览器编码
如果我开发一个网站，它是否会以相同的方式在 IE11、Chrome、Firefox 和 edge 上运行，还是我们需要专门为 IE11 编写代码？我没有 Windows 8，因此无法在边缘浏览器上测试
microsoft-edge - 我们如何检查日志或调试 Microsoft Edge？
如果 Edge 在某些机器上发生崩溃，我们需要检查日志以了解发生了什么情况。最佳答案 Microsoft Edge 实际上是一个 Windows 进程，因此您应该能够在事件查看器中查看日志。此外，您
microsoft-test-manager - Microsoft 测试管理器如何运行自动化单元测试？
我已经将一些测试用例与项目中的单元测试相关联。该项目已构建并复制到共享上的放置位置。当我去运行这些测试时，由于作为这些测试的一部分包含的非托管 DLL 的 System.DllNotFoundExce
asp.net-core - Microsoft.Extensions.Identity.Stores 和 Microsoft.Extensions.Identity.Core 和 Microsoft.AspNetCore.Identity 之间有什么区别？
我对 asp.net 核心标识中的三个包感到困惑。我不知道彼此之间有什么区别。还有哪些是我们应该使用的？我在 GitHub 上找到了这个链接，但我没有找到。 Difference between M
c# - 类型 'Microsoft.SqlServer.Types.SqlGeography' 存在于 'Microsoft.SqlServer.Types.dll' 和 'Microsoft.SqlServer.Types.dll' 中
在我的 Windows 类库(由 MVC 网站使用)中，我安装了 NugetPackage Microsoft.SqlServer.Types (Spatial)。现在，我正在使用 ado.net
microsoft-teams - 如何重定向到我的 Microsoft Teams 自定义应用程序中的另一个页面？
我有一个简单的 web 应用程序，我在 Teams 中显示为一个应用程序。我已经在 App Studio 中进行了设置，一切都按我的预期工作，一切都很好。它正在显示我的网络应用程序，这就是我想要的。
microsoft-dynamics - 如何理解 Microsoft Dynamics 产品？
有什么不同？它们都是业务管理解决方案。他们做的一样吗？一些不同的版本？他们使用同一个平台吗？动态 Assets 净值 Microsoft Dynamics NAV 2009 is a compreh
microsoft-graph-api - Microsoft Graph-使用umlaut和其他unicode字符进行过滤
如何制定包含非英语字符(例如日耳曼语Umlauts)的Microsoft Graph /myOrganization/users OData查询？例子: 我的租户中有一个名为“ThomasMülle
microsoft-band - 在 Microsoft Band 上显示图像
我想创建一个类似于乐队附带的星巴克应用程序的应用程序。我想显示条形码。我可以在云端或本地设备上将条形码生成为 JPG 图像，但我需要能够在乐队的屏幕上显示它们。到目前为止，我还没有找到使用 Band

首页

博学

6Ren·AI

商城

speech-recognition - Microsoft Speech 产品/平台之间的差异