- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
Windows 10。我在“设置”中安装了日语 TTS 语音。现在,当我在 Speech API 5.4 OneCore 中使用语音枚举时(虽然不是在 5.4 中),我得到 6 个语音:
语音设置页面也显示了这 6 个。但是注册表中显然有第七个,Sayaka (HKLM\SOFTWARE\WOW6432Node\Microsoft\Speech_OneCore\Voices\Tokens\MSTTS_V110_jaJP_SayakaM
)。其文件位于 C:\windows\Speech_OneCore\Engines\TTS\ja-JP
下。与其他文件相比,有一个额外的文件,.heq
。为什么不枚举?
枚举代码如下:
#import "libid:E6DA930B-BBA5-44DF-AC6F-FE60C1EDDEC8" rename_namespace("SAPI") //v5.4 OneCore
HRESULT hr;
SAPI::ISpVoicePtr v;
v.CreateInstance(__uuidof(SAPI::SpVoice));
SAPI::ISpObjectTokenPtr tok;
hr = v->GetVoice(&tok); //Retrieve the default voice
SAPI::ISpObjectTokenCategoryPtr cat;
hr = tok->GetCategory(&cat); //Retrieve the voices category
SAPI::IEnumSpObjectTokensPtr toks;
hr = cat->EnumTokens(0, 0, &toks);
//And enumerate
unsigned long i, n;
hr = toks->GetCount(&n);
LPWSTR ws;
for (i = 0; i < n; i++)
{
hr = toks->Item(i, &tok);
hr = tok->GetId(&ws);
CoTaskMemFree(ws);
}
我能在网上找到的唯一另一个提到 Sayaka 的是 here
通过 Reset()/Next() 枚举给出相同的 6。尝试直接在注册表路径周围创建 token 会给出错误 0x8004503a (SPERR_NOT_FOUND
)。 在使用 Process Monitor 观察的同时这样做揭示了一个有趣的事实:在 HKLM 下,进程询问以下键而不是 Sayaka:
HKCU\Software\Microsoft\Speech_OneCore\Isolated\7WUiMB20NMV5Y7TgZ2WJXbUw32iGZQSvSkeaf0AevtQ\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Speech_OneCore\Voices\Tokens\MSTTS_V110_jaJP_SayakaM
在 HKCU 下确实有一个类似的键,它包含 SAPI 的 HKLM 和 HKCU 设置的副本,并且在那个键中的 Voices 下确实没有 Sayaka。只是我提到的六个。
因此存在某种隔离,SAPI 设置有多个副本。 Isolated
下有7个不同的子键,它们下的语音集是不同的。其中两个包含与我们所知道的毫无共同之处的声音,而这些声音与 Cortana 有关。很难说隔离的单位是什么 - 可能是用户,也可能是应用程序包(在 UWP 意义上)。
正如我所怀疑的,正在进行基于应用程序包的隔离。我用相同的代码创建了一个全新的项目,运行它,得到了一个不同的隔离 key - F2yLLxINh6S1e3y3MkJo4ilfh036RB_9pHLEVL88yL0
。看起来每次运行启用 SAPI 的应用程序时,它都会从当前可执行文件中派生一个隔离配置文件。片刻之前,该隔离配置文件不存在,现在存在。所以它是由 SAPI 即时创建的。我不认为声音是硬编码的,所以它从主列表的某个地方复制了隔离配置文件中的声音。
主列表在哪里? 不是 HKLM\...\Speech_OneCore
,因为可以看到 Sayaka 在那里。它可能是 C:\Windows\SysWOW64\Speech_OneCore\Common\ja-JP
下的 tokens_TTS_ja-JP.xml
,因为那里列出了 Ayumi/Ichiro/Haruka,但 Sayaka 不在't。虽然该文件的安全性非常严格,但即使具有管理员权限,我也无法编辑该文件。此外,它是 C:\Windows\WinSxS\wow64_microsoft-windows-t..peech-ja-jp-onecore_31bf3856ad364e35_10.0.18362.1_none_46741f8a666da90a
的第二个硬链接(hard link)。
SysWOW64\Speech_OneCore
文件夹允许管理员写入,但 SysWOW64\Speech_OneCore\Common
不允许。只有 TrustedInstaller 可以编写它。
顺便说一句,隔离逻辑是OneCore特有的。 SAPI 5.4 中的 SetId()
正确查找与提供的 Id
匹配的 key 。
替代方法:SAPI 5.4 文档提到了 ISpRegDataKey 接口(interface),它允许直接从 HKEY 初始化 token 。虽然它不在类型库中。
最佳答案
这个答案是关于为那些没有明确选择加入的 SAPI 应用程序启用 Sayaka。
日语 TTS 语音的主要列表位于 C:\Windows\System32\Speech_OneCore\Common\ja-JP
下。它不仅仅是一个文件——SAPI 枚举了那里的所有 XML。问题是,为了将文件写入该文件夹,您需要一个实用程序来让程序作为 TrustedInstaller
运行。那些存在;有一个列表here .我用过一个叫做 PowerRun 的.
您需要创建一个名为 tokens_TTS_ja-JP_Sayaka.xml
的文件(具体名称并不重要),内容如下:
<?xml version="1.0" encoding="utf-8"?>
<Tokens>
<Category name="Voices" categoryBase="HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Speech_OneCore">
<Token name="MSTTS_V110_jaJP_SayakaM">
<String name="" value="Microsoft Sayaka - Japanese (Japan)" />
<String name="LangDataPath" value="%windir%\Speech_OneCore\Engines\TTS\ja-JP\MSTTSLocjaJP.dat" />
<String name="VoicePath" value="%windir%\Speech_OneCore\Engines\TTS\ja-JP\M1041Sayaka" />
<String name="411" value="Microsoft Sayaka - Japanese (Japan)" />
<String name="CLSID" value="{179F3D56-1B0B-42B2-A962-59B7EF59FE1B}" />
<Attribute name="Version" value="11.0" />
<Attribute name="Language" value="411" />
<Attribute name="Gender" value="Female" />
<Attribute name="Age" value="Adult" />
<Attribute name="DataVersion" value="11.0.2016.0221" />
<Attribute name="SharedPronunciation" value="" />
<Attribute name="Name" value="Microsoft Sayaka" />
<Attribute name="Vendor" value="Microsoft" />
<Attribute name="SayAsSupport" value="spell=NativeSupported; cardinal=GlobalSupported; ordinal=NativeSupported; date=GlobalSupported; time=GlobalSupported; telephone=NativeSupported; address=NativeSupported; message=NativeSupported; url=NativeSupported; currency=NativeSupported; alphanumeric=NativeSupported" />
<Attribute name="SampleText" value="既定の音声として%1を選びました" />
</Token>
</Category>
</Tokens>
然后将该文件作为TrustedInstaller
复制到C:\Windows\System32\Speech_OneCore\Common\ja-JP
。在 64 位 Windows 上,也将副本放入 C:\Windows\SysWOW64\Speech_OneCore\Common\ja-JP
以覆盖 32 位应用程序。
然后所有桌面 SAPI 应用程序也将获得 Sayaka,即使是那些目前已经具有独立设置 key 的应用程序。如有必要,SAPI 似乎会刷新主列表中的隔离设置。
Sayaka 也会出现在“设置”/“语音”下的语音列表中,并在被要求时说出她的问候语。
关于text-to-speech - Speech API OneCore 中的 Sayaka 语音在哪里?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60618283/
我只是尝试使用 Microsoft.Speech.dll; 为文本转语音运行简单的 Microsoft 示例 using System; using Microsoft.Speech.Synthesi
微软似乎提供了不少语音识别产品,我想知道它们之间的区别。 有Microsoft Speech API ,或 SAPI。但不知何故Microsoft Cognitive Service Speech A
我希望编写一个应用程序,将语音到文本转换为仓库应用程序,反之亦然。主要用例是运算符(operator)将在仓库中佩戴耳机并将指令发送回服务器并从仓库软件接收指令以拣选和打包订单。我们将使用由 Wind
我正在探索 python 中的谷歌云语音 api。我正在关注这个 link .我也提到了这个 stackoverflow link .但是我对设置环境变量感到震惊。 我做过的事情: 1.安装gclou
在尝试让 Speech to Text(IBM 语音网关 IVR 应用程序)识别字母数字字符串时,我想知道我是否可以创建一个自定义语法或实体来限制 STT 仅识别单个字母和数字,不包括完全的话。例如,
是否可以将来自Web Speech API的合成语音用作Web Audio API音频上下文中的SourceNode? 最佳答案 实际上,我问过要在Web Speech邮件列表中添加此内容,并且基本上
使用 Microsoft Speech API 转录中/大型音频文件(每个文件约 6-10 分钟)的最佳方法是什么?像批处理音频文件转录这样的东西? 我使用了 https://docs.microso
我的 .wav 文件长度只有 4 秒。即使在多次重试并在云端运行后,我仍然不断收到以下错误 * upload completely sent off: 12 out of 12 bytes
我找到了一些描述如何使用 Google 语音 API 的文章 ( http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/
我使用 google 语音转文本 API 从音频中获取字幕,但是当音频太长时,通常超过 60 分钟,重试次数过多会失败。它说:google.api_core.exceptions.GoogleAPIC
我有一些来自 System.Speech.Recognition 的简单代码可以正常工作: using (var recognizer = new SpeechRecognitionEngine(ne
Windows 10。我在“设置”中安装了日语 TTS 语音。现在,当我在 Speech API 5.4 OneCore 中使用语音枚举时(虽然不是在 5.4 中),我得到 6 个语音: 大卫 齐拉
当我提交对太长文本的综合请求时,我收到以下错误: google.api_core.exceptions.ResourceExhausted: 429 Received message larger t
我是 C# 的新手,也是 Speech.Recognition 的新手。我搜索了很长时间的教程,但没有找到那么多,我什至不确定我是否正确包含了所有内容。 我下载了: SDK Runtime Langu
我有一个奇怪的要求,即在我现有的应用程序中我有 Text2Speech 并且为此,我使用了 AVSpeechSynthesizer 来语音文本,但现在要求改变了,现在我需要将 HTML 文件数据转换为
我使用 Google Speech API 通过 Python 识别 .OGG 文件音频中的越南语语音。但它不会返回任何结果。 最佳答案 至少在英文版的Google Speech API中,需要使用F
我想从手机录制音频,然后将其发送到谷歌语音非流媒体 API。我可以使用 Capture.captureAudio() 进行录音,但是我不知道音频编码和采样率是什么,因为它们是必需的 for the a
我使用谷歌云语音到文本 API 将音频转换为文本。 对于 .raw文件它工作正常 但是对于 .wav文件它给了我类似的错误: Google::Gax::RetryError Exception: Ga
.NET 中有两个类似的用于语音识别的命名空间和程序集。我试图了解其中的差异以及何时适合使用其中之一。 程序集 System.Speech(在 System.Speech.dll 中)有 System
通过流式 API (Performing Streaming Speech Recognition on an Audio Stream) 使用 Google Cloud Speech API, 我们
我是一名优秀的程序员,十分优秀!