gpt4 book ai didi

c# - 帮助 SAPI v5.1 SpeechRecognitionEngine 总是给出与 C# 相同的错误结果

转载 作者:行者123 更新时间:2023-11-30 15:07:53 24 4
gpt4 key购买 nike

我正在研究这个 SAPI v5.1 库。所以我正在测试我拥有的示例 WAV 文件。 (Download it from here)。无论如何,该文件中的声音清晰而轻松。它只包含一个单词,即第三个单词。现在,当我运行以下代码时,我得到数字 8 或“八”。如果我删除它,我得到 7。如果我尝试随机化列表,我会得到不同的结果等等。我真的很困惑,开始认为 SAPI 库中的 SpeachRecognition 根本不起作用......

无论如何,这就是我正在做的,

    private void button1_Click(object sender, EventArgs e)
{
//Add choices to grammar.
Choices mychoices = new Choices();
mychoices.Add("one");
mychoices.Add("two");
mychoices.Add("three");
mychoices.Add("four");
mychoices.Add("five");
mychoices.Add("six");
mychoices.Add("seven");
mychoices.Add("eight");
mychoices.Add("nine");
mychoices.Add("zero");
mychoices.Add("1");
mychoices.Add("2");
mychoices.Add("3");
mychoices.Add("4");
mychoices.Add("5");
mychoices.Add("6");
mychoices.Add("7");
mychoices.Add("8");
mychoices.Add("9");
mychoices.Add("0");

Grammar myGrammar = new Grammar(new GrammarBuilder(mychoices));

//Create the engine.
SpeechRecognitionEngine reco = new SpeechRecognitionEngine();

//Read audio stream from wav file.
reco.SetInputToWaveFile("3.wav");
reco.LoadGrammar(myGrammar);

//Get the recognized value.
reco.SpeechRecognized += new EventHandler<SpeechRecognizedEventArgs>(reco_SpeechRecognized);

reco.RecognizeAsync(RecognizeMode.Multiple);
}

void reco_SpeechRecognized(object sender, SpeechRecognizedEventArgs e)
{
MessageBox.Show(e.Result.Text);
}

最佳答案

您是如何创建 WAV 文件的?看起来它的比特率很高。识别器只支持某些格式。尝试:

  • 每个样本 8 位
  • 单声道单声道
  • 每秒 22,050 个样本
  • PCM编码

您有大约 3 秒的音频,文件大小为 520 KB。对于支持的格式来说,这似乎太大了。

您可以使用 RecognizerInfo 类查找识别器支持的音频格式 (SupportedAudioFormats) - RecognizerInfo.SupportedAudioFormats Property .

更新:

您的音频文件有点乱。很吵。它也是一种不受支持的格式。 Audacity将其报告为立体声、44.1 kHz 和 32 位 float 。我将开头和结尾的噪音静音,重新采样到 22.050 kHz,移除立体声轨道,然后导出为未压缩的 8 位无符号 WAV。然后就可以正常工作了。

在我的 Windows 7 机器上,我的默认识别器仅支持以下音频格式:

  0:
Encodingformat = Pcm
BitsPerSample = 8
BlockAlign = 1
ChannelCount = 1
SamplesPerSecond = 16000

1:
Encodingformat = Pcm
BitsPerSample = 16
BlockAlign = 2
ChannelCount = 1
SamplesPerSecond = 16000

2:
Encodingformat = Pcm
BitsPerSample = 8
BlockAlign = 1
ChannelCount = 1
SamplesPerSecond = 22050

3:
Encodingformat = Pcm
BitsPerSample = 16
BlockAlign = 2
ChannelCount = 1
SamplesPerSecond = 22050

4:
Encodingformat = ALaw
BitsPerSample = 8
BlockAlign = 1
ChannelCount = 1
SamplesPerSecond = 22050

5:
Encodingformat = ULaw
BitsPerSample = 8
BlockAlign = 1
ChannelCount = 1
SamplesPerSecond = 22050

您还应该从语法中删除数字选项。现在,识别器返回两个替代项:“三”和“3”。这可能不是你想要的。您可以在语法中使用语义结果值来返回单词“三”的数字 3。

关于c# - 帮助 SAPI v5.1 SpeechRecognitionEngine 总是给出与 C# 相同的错误结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6193874/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com