Tag: 语音识别

C#语法和切换通配符

我想补充一点,每当它识别出“搜索X”时它就会搜索“X”,但我不知道如何将其添加到语法中,或者如何用我的开关来做这样的事情声明。 private void Form1_Load(object sender, EventArgs e) { Choices commands = new Choices(); commands.Add(new string[] { “hello”, “start chrome”, “search” }); GrammarBuilder gBuilder = new GrammarBuilder(); gBuilder.Append(commands); gBuilder.Culture = new System.Globalization.CultureInfo(“en-GB”); Grammar grammar = new Grammar(gBuilder); recEngine.LoadGrammarAsync(grammar); recEngine.SetInputToDefaultAudioDevice(); recEngine.SpeechRecognized += RecEngine_SpeechRecognized; } private void RecEngine_SpeechRecognized(object sender, SpeechRecognizedEventArgs e) { switch (e.Result.Text) { case “hello”: synthesizer.SpeakAsync(“Hello! […]

如何确定SpeechRecognitionEngine识别单词的位置?

我正在探索SpeechRecognitionEngine的function,我的最终目标是输入WAV文件和该WAV文件的转录,并输出每个单词的开头(理想情况下,结尾)的WAV文件中的位置。 我可以让引擎成功识别这个短语,但我无法理解如何在单词开始时检索音频位置,而不是在识别被识别或识别时等。 如果你很好奇这是什么意思,那就是自动化嘴唇同步动画工作流程。 谢谢你的时间。

如何在Windows Server 2012 R2上运行Microsoft.CognitiveServices.Speech

我需要将语音从wav文件转换为文本。 所以我从Quickstart下载了示例C#代码项目:使用Speech service C#SDK页面识别语音 ,并按照页面上的说明进行操作。 它适用于Windows 10,但我需要该项目在Windows Server 2012 R2上运行,它在Windows Server 2012 R2上不起作用。 当我在Windows Server 2012 R2上运行它时,我按3键进行3.语音识别和文件输入选项。 但是当它尝试执行以下代码时(具有有效的订阅和区域值) var factory = SpeechFactory.FromSubscription(“YourSubscriptionKey”, “YourServiceRegion”); 抛出以下exception: 发生System.TypeInitializationException HResult = 0x80131534 Message =“Microsoft.CognitiveServices.Speech.Internal.carbon_csharpPINVOKE”的类型初始值设定项引发exception。 Source = Microsoft.CognitiveServices.Speech.csharp StackTrace:at Microsoft.CognitiveServices.Speech.Internal.SpeechFactory.FromSubscription(String subscription,String region)中的Microsoft.CognitiveServices.Speech.Internal.carbon_csharpPINVOKE.SpeechFactory_FromSubscription(String jarg1,String jarg2)at at Microsoft.CognitiveServices.Speech.SpeechFactory.FromSubscription(String subscriptionKey,String region)at MicrosoftSpeechSDKSamples.SpeechRecognitionSamples.d__2.MoveNext()in C:\ temp \ csharp_samples \ speech_recognition_samples.cs:line 86 内部exception1:TypeInitializationException:’SWIGExceptionHelper’的类型初始值设定项引发exception。 内部exception2:DllNotFoundException:无法加载DLL’Microsoft.CognitiveServices.Speech.csharp.bindings.dll’:找不到指定的模块。 (HRESULTexception:0x8007007E) 我认为Microsoft.CognitiveServices.Speech.csharp.bindings.dll不喜欢在Windows […]

语音识别引擎不是Windows服务中的触发事件

所以我有一个使用system.speech识别引擎实现语音识别的Windows服务。 当我启动服务时,我的语音识别代码运行良好但没有语音事件识别出来。 奇怪的是,如果我运行完全相同的代码,但在控制台或WPF应用程序中,语音识别的事件触发工作正常。 我已经在我的服务进程中附加了一个调试器来检查幕后发生了什么。 似乎语音识别引擎正确加载语法,将其模式设置为连续监听,并正确设置语音识别事件。 没有exception被抛出,所以我不太确定这里有什么问题。 有任何想法吗?

问SpeechSynthesizer.SetOutputToAudioStream音频格式问题

我目前正在开发一种应用程序,它需要传输编码为特定音频格式的语音。 System.Speech.AudioFormat.SpeechAudioFormatInfo synthFormat = new System.Speech.AudioFormat.SpeechAudioFormatInfo(System.Speech.AudioFormat.EncodingFormat.Pcm, 8000, 16, 1, 16000, 2, null); 这表明音频采用PCM格式,每秒8000个采样,每个采样16位,单声道,每秒16000个平均字节,块对齐为2。 当我尝试执行以下代码时,没有任何内容写入我的MemoryStream实例; 但是当我从每秒8000个样本更改为11025时,音频数据被成功写入。 SpeechSynthesizer synthesizer = new SpeechSynthesizer(); waveStream = new MemoryStream(); PromptBuilder pbuilder = new PromptBuilder(); PromptStyle pStyle = new PromptStyle(); pStyle.Emphasis = PromptEmphasis.None; pStyle.Rate = PromptRate.Fast; pStyle.Volume = PromptVolume.ExtraLoud; pbuilder.StartStyle(pStyle); pbuilder.StartParagraph(); pbuilder.StartVoice(VoiceGender.Male, VoiceAge.Teen, 2); pbuilder.StartSentence(); pbuilder.AppendText(“This is some text.”); pbuilder.EndSentence(); pbuilder.EndVoice(); […]

以编程方式导入MS Speech API语音配置文件

我有一台受过我的声音训练的Windows 7计算机,我想发布我的语音配置文件以及我创建的软件包。 我知道WSRProfile.exe(http://www.microsoft.com/download/en/details.aspx?id=16296)等工具,它们可以保存和加载新的语音配置文件。 但是,有没有在我自己的代码(C#)中实现这一点,而不需要任何外部工具或应用程序? 提前致谢。

语音识别编程问题入门

所以,你们大概都看到过钢铁侠,托尼与一个叫做贾维斯的人工智能系统相互作用。 Demo clip here (对不起,这是商业广告)。 我对C#,C ++和Visual Basic非常熟悉,但我不确定我可以选择哪种方式来编程这样的东西。 理想情况下,我希望通过自动化一些事情来帮助我在一些项目上工作。 经过一番研究后,我看到很多人都在使用苹果脚本。 好吧,我是一个Windows开发人员,我在Windows上工作,所以,这是行不通的。 微软有一个Speech SDK,但我听说我无法编程来学习自定义单词……因为它只是使用它的标准库。 这是真的? SDK的语音识别有哪些其他限制? 那还有别的吗? 另外,哪种语言更适合用于这样的项目? C#还是VB?

Windows 10语音识别

我想在c#中为Windows 10创建一个WPF应用程序。现在,我在以前的Windows版本中遇到的问题是我是意大利语并且不支持意大利语中的语音识别。 但现在有了神经。 那么,我如何在我的应用程序中使用cortana的语音识别引擎? 如果我只是使用new SpeechRecognitionEngine(new CultureInfo(“it-IT”))); 它给了我一个错误,因为没有简单的recongition引擎,所以我必须使用cortana的一个。 希望你理解并抱歉我的英语不好。 谢谢您的回答。

人脸,情感和语音识别

我在C#寻找一个好的面部,情感和语音识别方法。 对于人脸识别,我早期使用的是Emgu CV,这种方法不准确,在低光照条件下性能非常低。 我还需要找到用户的情感。 无论是悲伤还是幸福。 但我发现Emgu CV并不容易。 同样对于语音识别我还没有找到任何解决方案,我发现语音识别,但它不是我需要的。 我不想使用任何在线API。 任何人都可以建议我使用任何SDK或算法来实现面部,情感和语音识别吗?

使用System.Speech将mp3文件转换为文本

我正在尝试使用.net中的语音识别来识别mp3文件中播客的语音,并将结果作为字符串。 我见过的所有例子都与使用麦克风有关但我不想使用麦克风并提供一个示例mp3文件作为我的音频源。 任何人都可以指向任何资源或发布示例。 编辑 – 我将音频文件转换为wav文件并在其上尝试此代码。 但它只提取前68个单词。 public class MyRecognizer { public string ReadAudio() { SpeechRecognitionEngine sre = new SpeechRecognitionEngine(); Grammar gr = new DictationGrammar(); sre.LoadGrammar(gr); sre.SetInputToWaveFile(“C:\\Users\\Soham Dasgupta\\Downloads\\Podcasts\\Engadget_Podcast_353.wav”); sre.BabbleTimeout = new TimeSpan(Int32.MaxValue); sre.InitialSilenceTimeout = new TimeSpan(Int32.MaxValue); sre.EndSilenceTimeout = new TimeSpan(100000000); sre.EndSilenceTimeoutAmbiguous = new TimeSpan(100000000); RecognitionResult result = sre.Recognize(new TimeSpan(Int32.MaxValue)); return result.Text; } }