如何确定SpeechRecognitionEngine识别单词的位置？

我正在探索SpeechRecognitionEngine的function，我的最终目标是输入WAV文件和该WAV文件的转录，并输出每个单词的开头（理想情况下，结尾）的WAV文件中的位置。

我可以让引擎成功识别这个短语，但我无法理解如何在单词开始时检索音频位置，而不是在识别被识别或识别时等。

如果你很好奇这是什么意思，那就是自动化嘴唇同步动画工作流程。

谢谢你的时间。

适当的音频到文本对齐是一项需要与语音识别不同的特定算法的任务。您可以使用ASR引擎模拟一些对齐function，但它会很好用。

对于对齐算法的实现，您可以检查CMUSphinx语音识别工具包：

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

http://www.bluevincent.com/2011/02/speech-to-text-using-java.html

或者您可以尝试像Nexiwave那样的商业公司服务

http://nexiwave.com/index.php/applications/transcription-timestamping

Interesting Posts

Winforms：有没有办法在我的应用程序中打开表单时得到通知？

如何使用signalR向特定用户发送消息

计算类的实例

.NET Windows窗体应用程序是否可以在64位操作系统中运行，还是需要进行修改？

如何使用文件文本文件中的二进制反序列化反序列化

为什么Http请求Fiddler的速度非常快

在wpf中的形状上绘制文本

Ninject：是否可以在SingletonScope中使用父对象，在TransientScope中使用子对象？

将ControlTemplate XAML转换为C＃

发布后图标不起作用