语音旗子暗记是一种短时平稳旗子暗记,即时变的,十分繁芜,同时也携带了很多有用信息,包括个人信息、语义等。因此特色参数提取的准确率,直接影响语音识别结果的好坏。
旗子暗记的预处理便是为了保障特色参数提取准确性的前期事情,这部分的先容见上一篇文章 :AI产品经理需理解的技能知识:语音识别技能(1)。
语音识别算法
语音识别系统的实质是模式识别系统,而语音识别的过程便是根据模式匹配原则,按照一定的相似度法则,使未知的模型和模型库中的某一个参考模型得到最大匹配度的过程。
常见的语音识别算法紧张有:模版匹配法,如动态韶光规整(DTW);随机模型法,如隐马尔可夫模型(HMM);基于人工神经网络(ANN)的算法。
1. 动态韶光规整
在伶仃词识别中,最为大略有效的方法便是采取DTW算法,这个方法办理了相同词但发音是非不同时的匹配问题。
首先,伶仃词是什么?
我个人的理解就像是自然措辞处理中的分词,即把一段笔墨划分为多少单词去模板库匹配。差异在于:一个是笔墨,一个是语音。
笔墨是依据句法、语法、语义划分,而语音则是通过端点检测算法确定语音的出发点和终点(端点检测算法见上一篇文章)。
其次,得到伶仃词后,会涌现一个问题,如A同学“你好”中的“你”字发音拖长,B同学“再见”的“再”字的发音很短。那么该如何匹配到参考裤中的“你好”和“再见”呢?
这个例子就好比下图(手手工示意图,大家看看就好):
很显然,对付说话速率差异的限定,不符合实际语音的发展情形,须要一种更加符合实际情形的语音韶光规整方法。DTW便是通过把韶光序列进行延伸和错单,来打算两个韶光序列之间的相似性。
2. 隐马尔可夫模型(HMM)
隐马尔可夫模型是一种统计模型,在语音识别、自然措辞处理问题广泛运用。语音旗子暗记可看作一个可不雅观察序列,微不雅观上它在足够小韶光段上的特性近似于稳定,宏不雅观上可看作一次从相对稳定的某一特性过渡到另一特性,如:A->B->C->D。
假设产生一个语音时,分别经历4个状态,分别是A- >B->B-C-D-A-D。所有的状态可以看作是x=状态,y=韶光的矩阵Q[4][6],通过概率算法,打算出在4096(444444)种情形中的最佳路径ABBCDAD。
3. 人工神经网络(ANN)
人工神经网络是打算智能中的主要部分之一,是有大量大略的基本元件-神经元相互连接,仿照人的大脑神经处理信息的办法,进行信息并行处理和非线性变换的繁芜网络系统。
基于ANN的语音识别系统常日由神经元、演习算法、网络构造三大要素构成,具有高速的信息处理能力,并且有着较强的适应和自动调节能力,在演习过程中能不断调度自身的参数权值和拓扑构造,这也是AI产品与传统互联网产品的的差异。
下面以BP神经网路为例:
(1)什么是BP神经网络?
人工神经元是对人或者其他生物的神经元细胞的多少基本特性的抽象和仿照,生物神经元紧张由细胞体、树突、轴突组成,树突和轴突卖力传入和传出信息,愉快性的冲动沿着树突抵达细胞体,在细胞膜上累积形成愉快性电位。
相反,抑制性冲动到达细胞膜则形成抑制性电位,两个电位进行累加,若代数和超过阈值,则神经元产生冲动。
模拟生物神经元产生冲动的过程,可以建立一个人工神经元数学模型,包括输入向量、输出值、引发函数、阈值、权值(神经元与其他神经元的连接强度)。神经元则是一个打算和储存单元,将打算结果暂存并通报给下一个神经元。
(2)BP神经网络是如何学习的?
BP神经网络的学习过程由两部分组成,分别是正向传播和反向传播。
正向传播时,输入信息从输入层经处理后传向输出层,每一层神经元只对下一层的神经元的状态有影响。如果在输出层得不到期望的输出,则进入反向传播。反向传播时,偏差旗子暗记从输入层向输入层传播并沿途调度各层间的权值。经由不断的迭代,末了将偏差尽可能降落。如图所示:
人工神经网络常日是针对静态模式设计的,语音旗子暗记是一个时变旗子暗记,而且它的时变特性也是语音理解的一个主要特色——由于发音快慢节奏不一样,发音时音节是非不会完备相同。
而大多数神经网络输入构造是固定的,采取BP算法,识别率并不是很高,常日须要将人工神经额网络做一些必要的改动。
本文由 @猪不会飞 原创发布于大家都是产品经理。未经容许,禁止转载
题图来自Unsplash,基于CC0协议