帮助SAPI v5.1 SpeechRecognitionEngine始终使用C#提供相同的错误结果

我正在玩这个SAPI v5.1库。 所以我正在测试我的样本WAV文件。 ( 从这里下载 )。 无论如何,该文件中的声音清晰简单。 它只包含一个三号字。 现在当我运行以下代码时,我得到数字8或“8”。 如果我删除它,我得到7.如果我尝试随机化列表我得到不同的结果,依此类推。 我真的很困惑,开始认为SAPI库中的SpeachRecognition根本不起作用……

无论如何这里是我正在做的,

private void button1_Click(object sender, EventArgs e) { //Add choices to grammar. Choices mychoices = new Choices(); mychoices.Add("one"); mychoices.Add("two"); mychoices.Add("three"); mychoices.Add("four"); mychoices.Add("five"); mychoices.Add("six"); mychoices.Add("seven"); mychoices.Add("eight"); mychoices.Add("nine"); mychoices.Add("zero"); mychoices.Add("1"); mychoices.Add("2"); mychoices.Add("3"); mychoices.Add("4"); mychoices.Add("5"); mychoices.Add("6"); mychoices.Add("7"); mychoices.Add("8"); mychoices.Add("9"); mychoices.Add("0"); Grammar myGrammar = new Grammar(new GrammarBuilder(mychoices)); //Create the engine. SpeechRecognitionEngine reco = new SpeechRecognitionEngine(); //Read audio stream from wav file. reco.SetInputToWaveFile("3.wav"); reco.LoadGrammar(myGrammar); //Get the recognized value. reco.SpeechRecognized += new EventHandler(reco_SpeechRecognized); reco.RecognizeAsync(RecognizeMode.Multiple); } void reco_SpeechRecognized(object sender, SpeechRecognizedEventArgs e) { MessageBox.Show(e.Result.Text); } 

你是如何创建你的WAV文件的? 看起来它的比特率很高。 识别器仅支持某些格式。 尝试:

  • 每个样本8位
  • 单声道单声道
  • 每秒22,050个样本
  • PCM编码

您有大约3秒的音频,文件大小为520 KB。 对于支持的格式来说,这似乎太大了。

您可以使用RecognizerInfo类查找识别器支持的音频格式(SupportedAudioFormats) – RecognizerInfo.SupportedAudioFormats属性

更新:

你的音频文件有点混乱。 这是非常嘈杂的。 它也是一种不受支持的格式。 Audacity将其报告为立体声,44.1 kHz和32位浮点数。 我在开始和结束时将噪声静音,重新采样到22.050 kHz,移除立体声音轨,然后导出为未压缩的8位无符号WAV。 它然后工作正常。

在我的Windows 7机器上,我的默认识别器仅支持以下音频格式:

  0: Encodingformat = Pcm BitsPerSample = 8 BlockAlign = 1 ChannelCount = 1 SamplesPerSecond = 16000 1: Encodingformat = Pcm BitsPerSample = 16 BlockAlign = 2 ChannelCount = 1 SamplesPerSecond = 16000 2: Encodingformat = Pcm BitsPerSample = 8 BlockAlign = 1 ChannelCount = 1 SamplesPerSecond = 22050 3: Encodingformat = Pcm BitsPerSample = 16 BlockAlign = 2 ChannelCount = 1 SamplesPerSecond = 22050 4: Encodingformat = ALaw BitsPerSample = 8 BlockAlign = 1 ChannelCount = 1 SamplesPerSecond = 22050 5: Encodingformat = ULaw BitsPerSample = 8 BlockAlign = 1 ChannelCount = 1 SamplesPerSecond = 22050 

您还应该从语法中删除数字选项。 此时识别器返回两个替换项:“三”和“3”。 这可能不是你想要的。 您可以在语法中使用语义结果值来返回单词“three”的数字3。