c++ - 训练 sapi : Creating transcripted wav files and adding file paths to registry-6ren

c++ - 训练 sapi : Creating transcripted wav files and adding file paths to registry

转载作者：塔克拉玛干更新时间：2023-11-03 02:24:11

我们正在尝试进行声学训练，但无法创建转录的音频文件，如何创建？此外，我们正在使用 GetTranscript 和 Appendtranscript，但如果我们以 READWRITE 模式打开流，则无法获取 ISpStream 的 ISpTranscript 接口(interface)，那么如何创建转录 wav 文件。

hr = SPBindToFile(L"e:\\file1.wav", SPFM_OPEN_READONLY,
    &cpStream);
hr = cpStream.QueryInterface(&cpTranscript);
// We get a error here for as E_NONINTERFACE if SPFM_OPEN_READWRITE  
hr = cpTranscript->AppendTranscript(sCorrectText);
hr = cpTranscript->GetTranscript(&pwszTranscript);
// GIVES CORRECT TRANSCRIPT 

//READING THIS AGAIN ON NEXT EXECUTION TIME DOES NOT GIVE THE TRANSCRIPT

hr = SPBindToFile(L"e:\\file1.wav", SPFM_OPEN_READONLY,
    &cpStream);
hr = cpStream.QueryInterface(&cpTranscript);
//THIS GIVE THE ERROR E_NONINTERFACE

完成此操作后，我们需要将文件路径添加到注册表中。我们通过以下代码执行此操作。

CComPtr<ISpObjectToken> cpObjToken;



ULONG                     CSIDL_LOCAL_APPDATA = 28;
ULONG                     CSIDL_FLAG_CREATE = 32768;
GUID guid0;
LPWSTR FileName2;

hr = cpRecognizerBase->GetRecoProfile(&cpObjToken);
hr = CoCreateGuid(&guid0);
hr = cpObjToken->GetStorageFileName(guid0, L"Test",   L"F:\\sample6.wav",CSIDL_FLAG_CREATE, &FileName2);
//this code runs fine but the file is never added to the registry

任何指针将不胜感激。此问题与此处提出的问题有关 Speech training files and registry locations

谢谢

最佳答案

In this post I address how to perform appendTranscript successfully, and speech training using WAV files (credit to Bill Hutchinson). Everything is in C++.

如果 ISPStream 没有内容，就会发生 E_NONINTERFACE。例如文件是空的；调用没有成功，但仍然返回 s_OK(它出于某种原因这样做)。所以通常我会先调查流是否真的有任何内容。您可以通过检查其大小来做到这一点:

这是一个例子。如果它的大小为 0 或大得离谱，那么显然它没有返回正确的值。请记住，返回值是 ULARGE_INTEGER。

STATSTG streamInfo;
cpStream->Stat(&streamInfo, STATFLAG_DEFAULT);
ULARGE_INTEGER streamSizeULI;
streamSizeULI = streamInfo.cbSize;

SPBindToFile 仅适用于 SPFM_OPEN_READONLY 和 SPFM_CREATE_ALWAYS，因此您必须使用其中之一。

至于如何保存附加的转录本，如果wav文件已经存在(或者至少我不知道如何保存)，似乎不能直接保存。如果该文件尚不存在，您可以创建一个新的 ispstream，当您通过语音或麦克风等方式将音频信息传递给它时(网络上有很多示例)，您可以附加一个文字记录，然后它会粘住.我在下面举了一个例子。

将抄本附加到新文件:

void recordAndAppendTranscriptInOneOperation() {
HRESULT             hr = S_OK;
CComPtr <ISpVoice>      cpVoice;
CComPtr <ISpStream>     cpStream;
CComPtr<ISpTranscript>  cpTranscript;
CSpStreamFormat         cAudioFmt;

//Create    a   SAPI    Voice   
hr  =   cpVoice.CoCreateInstance(CLSID_SpVoice);

char filePathOut[] = R"(C:\SAPI\SampleOutput\SP_Sample.wav)";

//Set   the audio   format                              
if(SUCCEEDED(hr))   
{       
    hr  =   cAudioFmt.AssignFormat(SPSF_22kHz16BitMono);    
}

//Call  SPBindToFile,   a   SAPI    helper  method,     to  bind    the audio       
if(SUCCEEDED(hr))   
{
    hr = SPBindToFile(filePathOut, SPFM_CREATE_ALWAYS, &cpStream, &cAudioFmt.FormatId(), cAudioFmt.WaveFormatExPtr());
}

//set   the output  to  cpStream    so  that    the output  audio   data    wil                             
if(SUCCEEDED(hr))   
{       
    hr = cpVoice->SetOutput(cpStream, TRUE);    
}

//Speak the text    “hello  world”  synchronously                               
if(SUCCEEDED(hr))   
{       
    hr = cpVoice->Speak(L"Hello World", SPF_DEFAULT, NULL);
}

//close the stream  
if(SUCCEEDED(hr))   
{
    PWCHAR                      pwszTranscript;
    char NewTranscriptAsString[] = R"(This is a test)";
    LPCWSTR NewTranscript = charToLPSTRW(NewTranscriptAsString);

    hr = cpStream.QueryInterface(&cpTranscript);
    hr = cpTranscript->AppendTranscript(NULL);
    hr = cpTranscript->AppendTranscript(NewTranscript);
    hr = cpTranscript->GetTranscript(&pwszTranscript);

    hr  =   cpStream->Close();  
}

//Release   the stream  and voice   object  
cpStream.Release(); 
cpVoice.Release();
 }

Bill Hutchinson(下面的链接来源之一)有一些代码可用于执行识别器训练，而无需进行所有注册表编辑等操作。我把它包含在这篇文章的末尾。他有一个函数(TrainOne)，可以通过内存流逐个文件地训练识别器。您可以将预先存在的 WAV 传递给它。具体来说，要么是带有转录本的 WAV，要么是没有转录本的 WAV，并且(然后在调用时将转录本提供给函数)。请查看它，因为它提供了很多信息。

这里是我发现的与 SAPI 相关的所有知识的集合，这对其他试图解决这个问题的人很有用。 我也会很快发布我自己的完整 SAPI 培训解决方案:

示例训练代码:

由于 Bill Hutchinson 的 SAPI 代码是如何使用 SAPI 在网络上进行培训的少数可靠示例之一，我在下面包含了他来自谷歌的帖子，以防有一天它被删除/丢失:

#include "stdafx.h"
#include "sphelper.h"
#include <sapi.h>
#include <string.h>
//MAIN() is last function below
inline HRESULT ReturnResult(ISpRecoContext * pRecoCtxt, ISpRecoResult
** ppResult)
{
        HRESULT hr = S_OK;
        CSpEvent spEvent;
        while (S_OK == pRecoCtxt->WaitForNotifyEvent(INFINITE))
        {
                while (S_OK == spEvent.GetFrom(pRecoCtxt))
                {
                        switch (spEvent.eEventId)
                        {
                                case SPEI_RECOGNITION:
                                        *ppResult = spEvent.RecoResult();
                                        if (*ppResult)
                                        {
                                                (*ppResult)->AddRef();
                                        }
                                        return hr;
                                case [OTHER EVENTS]
                    spEvent.Clear();
        }
        return hr;
}
inline HRESULT TrainOneFile(ISpRecoContext * cpRecoCtxt, ISpRecognizer
* cpRecognizerBase, ISpRecoGrammar * cpGrammar)
{
        CComPtr<ISpStream>      cpStream;
        CComPtr<ISpRecoResult>        cpResult;
        CComPtr<ISpTranscript>  cpTranscript;
        PWCHAR                  pwszTranscript;
        HRESULT hr = S_OK;
        hr = cpStream.CoCreateInstance(CLSID_SpStream);
        // Bind a stream to an existing wavefile
        if (SUCCEEDED(hr))        {
                hr = cpStream->BindToFile(L"C:\\XX.wav",                                                        SPFM_OPEN_READONLY,
                        NULL,
                        NULL,
                        SPFEI_ALL_EVENTS);
        }
        if (SUCCEEDED(hr)){
                hr = cpStream.QueryInterface(&cpTranscript);
        }
        if (SUCCEEDED(hr)) {
                hr = cpTranscript->GetTranscript(&pwszTranscript);
        }
        //THIS IS ALTERNATE CODE FOR PREVIOUS LINE, FOR SOUND FILES THAT
DON’T HAVE A TRANSCRIPT ATTACHED
        LPCWSTR sCorrectText = L"Anyone who has spent time on a farm knows
there is a rhythm to the year.";
        if (SUCCEEDED(hr)){
                hr = cpTranscript->AppendTranscript(s);
        }
        if (SUCCEEDED(hr))        {
                hr = cpTranscript->GetTranscript(&pwszTranscript);
        }
        if(SUCCEEDED(hr)){
                hr = cpRecognizerBase->SetInput(cpStream, TRUE);
        }
        USES_CONVERSION;
        CSpDynamicString dstrText;
        if (SUCCEEDED (hr)){
                hr = cpGrammar->SetDictationState(SPRS_ACTIVE);
        }
        if (SUCCEEDED(hr)){
                hr = ReturnResult(cpRecoCtxt, &cpResult);
        }
        if (SUCCEEDED(hr)){
                hr = cpGrammar->SetDictationState( SPRS_INACTIVE );
        }
        if ((cpResult) &&(SUCCEEDED(hr))){
                hr = cpResult-
>GetText(SP_GETWHOLEPHRASE,SP_GETWHOLEPHRASE,TRUE,&dstrText,NULL);
        }
        CComPtr<ISpRecoResult2> cpResult2;
        if (SUCCEEDED(hr)){
                hr = cpResult.QueryInterface<ISpRecoResult2>(&cpResult2);
        }
        if (SUCCEEDED(hr)){
//COMMITTEXT SHOULD FORCE ADAPTATION OF MODELS TO CORRECT TEXT
//(THO IT SHOULD BE REDUNDANT WITH SETTRAININGSTATE() ?)
                hr = cpResult2-
>CommitText(SP_GETWHOLEPHRASE,SP_GETWHOLEPHRASE,sCorrectText,SPCF_DEFINITE_CORRECTION);
                cpResult.Release();
                cpResult2.Release();
        }
        return hr;
}

int _tmain(int argc, _TCHAR* argv[])
{
        HRESULT hr = S_OK;
        CComPtr<ISpRecognizer2> cpRecognizer;
        CComPtr<ISpRecoContext> cpRecoCtxt;
        CComPtr<ISpRecoGrammar> cpGrammar;
        CComPtr<ISpRecognizer> cpRecognizerBase;
        hr = ::CoInitialize(NULL);
            if (SUCCEEDED(hr)) {
                hr = cpRecognizer.CoCreateInstance(CLSID_SpInprocRecognizer);
        }
        if (SUCCEEDED(hr)){
                hr = cpRecognizer.QueryInterface<ISpRecognizer>(&cpRecognizerBase);
        }
        if (SUCCEEDED(hr)){
                hr = cpRecognizerBase->CreateRecoContext(&cpRecoCtxt);
        }
        if (cpRecoCtxt){
                hr = cpRecoCtxt->CreateGrammar(0, &cpGrammar);
        }
        if (SUCCEEDED(hr)){
                hr = cpGrammar->LoadDictation(NULL, SPLO_STATIC);
        }
        if (SUCCEEDED(hr)){
                hr = cpRecognizer->SetTrainingState(TRUE, TRUE);
        }
        if (SUCCEEDED(hr)){
                hr = cpRecoCtxt->SetNotifyWin32Event();
        }
        if (SUCCEEDED(hr)){
                hr = cpRecoCtxt->SetInterest(
                        SPFEI(SPEI_RECOGNITION)|
                        SPFEI(SPEI_HYPOTHESIS)|
                        SPFEI(SPEI_FALSE_RECOGNITION),
                        SPFEI(SPEI_RECOGNITION)|
                        SPFEI(SPEI_HYPOTHESIS)|
                        SPFEI(SPEI_FALSE_RECOGNITION));
        }
        if (SUCCEEDED(hr)){
                hr = TrainOneFile(cpRecoCtxt, cpRecognizerBase, cpGrammar);
        }
        if (SUCCEEDED(hr)){//RERUN TO CHECK FOR IMPROVEMENT
                hr = TrainOneFile(cpRecoCtxt, cpRecognizerBase, cpGrammar);
        }
        cpRecognizer->SetTrainingState(FALSE, TRUE);//should turn off and
save changes
        ::CoUninitialize();
        return 0;
}

关于c++ - 训练 sapi : Creating transcripted wav files and adding file paths to registry，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9760262/

文章推荐： c++ - 如何使用 VS2003 工具集从 VS11 中构建 C++ 项目？

文章推荐： algorithm - 列表的最大和最小元素

文章推荐： algorithm - 图论教程

文章推荐： C++ 在一个集合中存储多种数据类型

wav - 在另一个 WAV 中找到一个 WAV 样本的出现？
如果已知该确切样本存在于 wav 中的某处(但可能与其他声音混合)，是否可以使用 FFT 找到较长 wav 中出现的小 wav 样本？编辑 (收到两个回复后):如果我有一个包含所有已知声音的库，这些
c# - 使用 NAudio 从左声道的一个 WAV 和右声道的一个 WAV 创建 WAV
我对 .NET 中的音频完全陌生，所以请多多包涵。我的目标是创建一个具有两个 channel 的 wav 文件。左声道将包含语音消息(使用 SpeechSynthesizer 生成的流)，右声道需要
arrays - 一个按钮的随机声音生成器，该按钮使用8个不同的.wav文件。每个文件都命名为sound1.wav，sound2.wav…sound8.wav
我的大部分信息都来自其他stackoverflow帖子，但没有一个真正有用。 import UIKit import AVFoundation class FaceButtonSc
wav - 显示 WAV 文件音高
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 3 年前。
c# 将短数组从单声道 wav 文件转换为短数组以写入立体声 wav
这可能是一个非常简单的问题；我将一个单声道 WAV 文件转换为一个 short[] 数组，并且我有一个将其写回 WAV 文件的函数。一切正常。 (writeBuffer 是 short[] 数组) b
wav - 给定一个 WAV 文件，它的文件大小和采样率，是否可以计算样本数？
我们的应用程序需要知道它加载的音频文件的样本数。我们使用的库可以可靠地确定采样率，但不能确定样本数。我们是否可以仅从文件大小和采样率来计算样本数？最佳答案马克说什么。不，通常您需要解释标题。但是，
java - 将 .wav 文件转换为二进制文件，然后再转换回 .wav？
我正在用java做一个项目，需要我加密wave文件。那么，是否有一个直接的过程可以将波形文件转换为二进制文件并返回？我将对二进制数据应用加密算法。最佳答案是的。 File file = new F
python - 如何从 wav 文件中获取 wav 样本？
我想知道如何从 .wav 文件中获取样本以执行两个 .wav 文件的窗口连接。谁能告诉我怎么做？最佳答案 wave标准库的模块是关键:当然在代码顶部的 import wave 之后，wave.op
python - 如何将一个 .wav 文件分割成多个 .wav 文件？
我有一个几分钟长的 .wav 文件，我想将其分成不同的 10 秒 .wav 文件。到目前为止，这是我的 python 代码: import wave import math def main(fil
ffmpeg - 创建或更改 wav 文件为 Wav，16000Hz 单声道
我在 ffmpeg 中使用以下命令合并多个 wav 文件: -f concat -safe 0 -i /storage/emulated/0/AudioClipsForSpeakerRecogniti
python - 第二个 .wav 文件播放第一个 .wav 文件的增强噪音，而不是减少噪音
我正在尝试用python实现主动降噪。我的项目由两组代码组成: 录音代码声音过滤代码我的目标是当您运行该程序时，它将开始通过麦克风录音。录音完成后，会生成一个名为“file1.wav”的保存文件，
java - Java 中的 Wav 阅读器和处理器以及进行声音识别的基本 wav 问题
我正在尝试制作一个音乐识别系统。我担心我可能没有按照预期读取 wav 样本，而且我可能会应用错误的窗口大小来进行 FFT 和其他操作。如果你能帮我的话，那就太好了。首先，我有一些关于 Wavs 中
java - 如何将两个 wav 文件组合/合并为一个 wav 文件？
如何使用 java 合并两个 wav 文件？我试过了 this但它没有正常工作，他们还有其他方法吗？最佳答案如果您直接处理 wav 文件的字节，您可以在任何编程语言中使用相同的策略。对于此示例，
c# - 将 wav 文件转换为 wav 文件(更改格式)
尝试为我的 previous question 找到解决方法，我想将用 byte[](具有 wav header )编写的 16k 8 位单声道 wav 转换为 8k 8 位单声道流/字节 []。是
python-3.x - 将 .wav 音频文件设置复制到新的 .wav 文件
目前我正在使用一个语音到文本的翻译模型，该模型采用 .wav 文件并将音频中的可听语音转换为文本转录本。该模型之前曾用于直接录制的 .wav 音频录音。但是现在我正在尝试对视频中最初出现的音频做同样的
python - 从 Python 将 wav 转换为 wav ulaw
试图在 python 中将 wav 文件转换为 wav uLaw。使用 pydub 的 AudioSegment，我可以使用以下命令转换为 mp3: AudioSegment.from_wav(fr
iphone - 将 flac 解码为 wav 或从 wav 解码时出错
我在 xcode 项目中添加了 LibFlac。然后我在我的项目中添加了来自 Libflac 的decode/main.c。我通过了 infile.flac 并运行了项目的可执行文件，但它给出了以下错
ffmpeg 生成的 .wav 使用 scipy.io.wav 文件仅读取零
大家好，感谢您的阅读。我想使用 Python 的 scipy.io.wavfile 对一首歌进行一些分析。由于我只有 .mp3 格式的歌曲，因此我使用 ffmpeg 将文件转换为 .wav，方法如下
java - 合并两个 wav 文件以在 java 中创建一个更平滑的 wav 文件
我需要连接两个音频波，以便最终输出的音频波应该有一个更平滑的交汇点。我的意思是，在连接点，假设 10 秒钟，第一个音频应该开始淡出，而另一个音频开始拾取。我已经能够连接两个音频文件并生成单个输出，但
c# - 将 wav 文件转换为 8000Hz 16 位单声道 Wav
我需要将一个 wav 文件转换为 8000Hz 16 位单声道 Wav。我已经有一个代码，它适用于 NAudio 库，但我想使用 MemoryStream 而不是临时文件。 using System.

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 训练 sapi : Creating transcripted wav files and adding file paths to registry