如何确定SpeechRecognitionEngine识别单词的位置?

我正在探索SpeechRecognitionEngine的function,我的最终目标是输入WAV文件和该WAV文件的转录,并输出每个单词的开头(理想情况下,结尾)的WAV文件中的位置。

我可以让引擎成功识别这个短语,但我无法理解如何在单词开始时检索音频位置,而不是在识别被识别或识别时等。

如果你很好奇这是什么意思,那就是自动化嘴唇同步动画工作流程。

谢谢你的时间。

适当的音频到文本对齐是一项需要与语音识别不同的特定算法的任务。 您可以使用ASR引擎模拟一些对齐function,但它会很好用。

对于对齐算法的实现,您可以检查CMUSphinx语音识别工具包:

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

http://www.bluevincent.com/2011/02/speech-to-text-using-java.html

或者您可以尝试像Nexiwave那样的商业公司服务

http://nexiwave.com/index.php/applications/transcription-timestamping