语音识别的基础知识与CMUsphinx介绍

深圳人麦 · 发表于 2018-7-28 15:00:34

语音识别的基础知识与CMUsphinx介绍

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。

基于语音识别芯片的嵌入式产品也越来越多，如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等，这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上，目前比较成功的语音识别软件有：Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK，这些软件都是面向非特定人、大词汇量的连续语音识别系统。

语音识别本质上是一种模式识别的过程，未知语音的模式与已知语音的参考模式逐一进行比较，最佳匹配的参考模式被作为识别结果。

语音识别的目的就是让机器赋予人的听觉特性，听懂人说什么，并作出相应的动作。目前大多数语音识别技术是基于统计模式的，从语音产生机理来看，语音识别可以分为语音层和语言层两部分。

当今语音识别技术的主流算法，主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。