深度学*做语音识别

深圳人麦 · 发表于 2018-8-25 16:21:33

深度学*做语音识别

语音识别技术已经发展了几十年，近年突然变得炙手可热，这归功于深度学*终于使得语音识别的准确率提升到足矣让这项技术在实验测试以外的实际场景中应用。

吴恩达曾经预测当语音识别的准确率从95%上升到99%时，语音识别将会成为人类与计算机交互的新方式。归功于深度学*，这4%的准确率的提升使得语音识别从难以实际应用的技术变成有无限的应用潜力的技术。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。

实用技术识别技术是一项具有很大市场潜力的技术，但是现在的语音识别远远没有达到计算机与人交流的最终目标，它现在还存在许多问题。现阶段的语音识别研究中存在许多困难，语音识别系统对环境的依赖性特别强。而且全世界有许多种语言，一种语言还有多种方言，还有说话人的情绪波动都或多或少的影响语音的识别性能。因此要加强语音识别是一个重要的研究。

在这一研发过程中，声学模型也是相当重要的，声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。

然而，我们人麦信息已率先推出和量产了包含YQ1208和YQ2208两颗智能语音识别芯片。人麦信息语音识别芯片从输入语音信号中提取声学特征，对环境噪声、通话信道、说话人声道特征等进行归一化和补偿，并降低参数分量之间的耦合，对数据进行压缩，使计算特征参数的过程更加简便，使算法更加高效，基音周期、共振峰值等参数都作为表征语音特性的特征参数，最终得到了声学建模和匹配的特征。更有有业内人士预言，在未来的几年内，YQ5969语音控制芯片模块的优势会越来越明显，YQ5969语音识别芯片模拟听觉模型，把语音经过滤波器组模型的输出做为声学特征，然后利用离散傅里叶变换(DFT)进行变换。也正是因为这些特点，让其拥有了比较高的灵敏度，如果你想更多的了解关于YQ2208或者YQ5969智能语音请联系：肖先生微信：dao91123 联系电话：15889507452