传统的密码验证不仅随意马虎忘却,更随意马虎被黑客攻击盗取,不过好在我们每个人身上都有一些“活密码”,声纹、人脸、虹膜、指纹等,这些生物识别代表了每个人固有的特点。
本日班主任就来带大家理解下人工智能领域的「听风者」——声纹识别。
1.声纹的观点为了更好地理解声纹,首先理解一下它的载体,也便是语音。一段语音到底包含了哪些信息呢?
一个人听到一段语音之后,基本上就可以从这一段语音里判断出:内容、说话人、语种、性别年事、情绪、信道环境等信息。
这一系列的信息对应了相应的智能语音识别技能,包括内容识别、语种识别、男女老少识别、情绪识别以及场景识别。这个中止定该段语音的说话人信息就叫做声纹识别,也便是本日我们所要谈论的内容。
为了更直不雅观地看到声音,我们采取语谱图的形式,语谱图的横坐标是韶光,纵坐标是频率,坐标点值为语音数据能量。
由于是采取二维平面表达三维的信息,以是能量值的大小是通过颜色来表示的,颜色越深表示该点的语音能量就越强。
声音在语谱图中的表示如上图所示,两个人说相同的内容,在语谱图上的纹路是不同的,这便是声纹最直不雅观的表现。这种独特的特色紧张有两个成分决定,第一是声带振动的频率,不同的人声带震撼频率不同;第二是声腔的尺寸。除此之外,发声器官被操纵的办法也会使每个人的声纹不同。
2.自动声纹识别技能
声纹识别技能又称说话人识别技能,它是利用打算机系统自动完成说话人身份识别的一项智能语音核心技能。
这种技能基于语音中所包含的说话人特有的个性信息,利用打算机以及现在的信息识别技能,自动鉴别当前语音对应的说话人身份。
按照待识别语音的文本内容,可以把声纹识别划分为以下三种:文本无关、文本相关和文本限定。
文本无关是指识别系统对付语音文本内容是没有任何哀求,说话人的说话内容比较自由随意。而文本相关是指说话人识别系统,哀求用户必须按照事先指定的内容进行发音。比拟这两类说话人识别,文本相关的说话人识别的语音内容匹配性是优于文本无关的说话人识别。以是一样平常来说其系统的性能也会相对较好,但须要用户合营,并且识别文本随意马虎被盗取。
而文本无关的说话人识别,利用较为灵巧方便,用户是无感知的,因此它具有更好的推广性温柔应性,适宜海量后台监控场景。
为综合文本相关和文本无关的两者优点,文本限定的说法就应运而生了。它是指识别的时候,从限定的文本库中随机提取多少词汇组合后提示用户反应。这样不仅避免了文本相关的假冒录音闯入,并且实现相对大略,安全性高,是说话人识别技能的一大热点。
例如采取10个数字的组合来天生限定文本,便是一种最常用的办法。包括科大讯飞公司的数字声纹密码系统也是采取这种形式的。
3.声纹辨认与声纹确认
除了根据识别文本内容来划分以外,声纹识别根据实际的运用范畴,分为声纹辨认和声纹确认。
这两类任务的识别目标略有不同,声纹辨认是指剖断待测试语音属于目标说话人模型凑集中哪一个人,是【1:N】的选择问题。而声纹确认是确定待识别的一段语音是否来自其所声明的目标说话人,是一个【1:1】的讯断问题。
对付声纹识别辨认来说,根据测试识别来自说话人范围的不同,说话人辨认就又可以划分为闭集识别和开集识别。
闭集识别是指代测试语音必定属于目标说话人凑集中的某一位,即待识别语音为集内说话人。
开集识别是指代识别语音的发音者可能不属于目标说话人集中的任何一位。除此之外,根据实际的运用处景,声纹识别还包括说话人检测(检测目标说话人是否在某段语音中涌现)和说话人分离(以韶光为检索,实时检测每段音所对应的说话人)。
然而无论是声纹辨认还是声纹确认,核心均是对声纹相似度的讯断。
下面我们来学习下声纹相似度讯断的流程。声纹识别是范例的模式识别问题,它紧张包含了说话人模型演习和测试语音识别两阶段。
下图是一个基本的说话人识别框架,首先是注册阶段,对利用系统的说话人预留充足的语音,并对不同说话人提取声学特色,然后根据每个说话人的语音特色演习得到对应的说话人模型。终极将全体说话人模型凑集在一起组成系统说话人模型库。
注册完成之后是测试阶段,在测试阶段中说话人进行识别认证时,系统对识别语音进行相同的特色提取过程,并将语音特色与说话人模型库进行比对,得到对应说话人模型的相似性打分,终极根据识别打分判别得到识别语音的说话人身份。
4.缺点接管率与缺点谢绝率
那么我们如何衡量说话人识别系统的性能?首先我们看一看对付1:1场景的声纹确认系统,声纹确认识别系统的评价紧张有两个参数,分别是缺点接管率(FAR)和缺点谢绝率(FRR)。
缺点接管率是指将非目标说话人判别为目标说话人所造成的缺点。而缺点谢绝率是指将目标说话人判别成目标说话人。
两者的定义便是如下图公式所示,在声纹识别系统中可以通过设定不同的阈值,对缺点接管率和缺点谢绝率进行权衡。
当系统所哀求的安全性越高,则设定的阈值该当越高,此时接管条件就越严格,相应的缺点接管率就越低,但缺点谢绝率可能就越高。
反之,如果系统追求较好的易用性,也便是通过率高,则阈值设定的该当越低,此时接管条件就比较宽松,缺点接管率就高一些,缺点谢绝率便会低一些。
图中所示的中间阈值的区域,是一个比较平衡的区域。一样平常采取检测缺点权衡曲线,即DET曲线来反响两个缺点率之间的关系。
对付一个特定的声纹识别系统来说,以缺点接管率为横坐标,缺点谢绝率为纵坐标,通过调度阈值得到缺点接管率与缺点谢绝率之间的关系曲线图,即DET曲线。DET曲线离原点越靠近,系统性能越好。
在DET曲线上,第一象限角平分线与其交点处,缺点接管率和缺点谢绝率的值相等,该缺点率称之为等缺点率(ERR)。显然等缺点率值越小,系统性能越好。同时它也是代表了声纹识别系统的一个大约性能,是衡量系统性能的主要参数。
说完了1:1的生物确认场景之后,我们再来看一下声纹辨认的场景。
常日情形下,在开启的声纹辨认系统中,我们仍旧可以采取缺点率来评价系统的性能指标。而在这种闭集的辨认系统中,我们常日采取精确率或者识别率,或者是前N精确率作为评价系统性能的指标。
识别率便是指待识别的语音能够从目标说话人凑集中,精确找到所对应说话人的概率。常日认定待识别语音与目标说话人凑集中相似度最大的就作为辨认说话人,其辨认精确的比率又可称为Top-1的辨认召回率。若目标说话人凑集中相似度最大的N个辨认说话人包含精确说话人时为辨认精确,如此统计出来的辨认精确的比率称为Top-N辨认召回率。
5.声纹识别的上风与劣势末了我们来看一下,声纹识别相对其他生物特色识别有什么利害势,除了声纹识别以外,常见的生物特色有指纹、掌纹、人脸、虹膜、视网膜等。生物特色代表了每个人固有的特点,它具有普遍性、唯一性、稳定性和不易复制性等。
与其他这些生物特色比较,声纹紧张有以下三方面的上风:
1、非打仗、易接管:
声纹由于其非打仗性是可以用于远程领域的生物识别技能。其余蕴含声纹特色的语音获取方便、自然。在采集过程中涉及到的用户个人隐私信息较少,因此更随意马虎被利用者接管。
2、本钱低:
语音采集装置本钱低廉,利用大略,一个麦克风即可,在利用通讯设备(如电话、手机)时更无需额外的录音设备。
3、假造难:
声纹信息必须是活体采集,可使声纹口令动态变革而无需担心密码遗忘、丢失和盗取问题,防止录音假冒。
当然,声纹也有其自身的劣势,声纹特色的稳定性不足,受附着语音是非、内容、采集信道及环境、包括说话人自身身体情形影响,自动识别效果不及指纹等生物特色。
【主要的号外】
本日的科普课程就到这里啦,想理解更多关于声纹识别的知识,可以点击“阅读原文”进行课程视频不雅观看~在文章结束之前,班主任有个2小惊喜要和大家分享
第一:AI大学"大众年夜众号新增【逐日签到】功能,点击菜单栏【个人中央】---【每期签到】,急速体验新功能。
签到即可得到相应积分,积分可用户兑换AI大学限量版台历、条记本等精美礼物。
第二:AI大学新增【约请码】功能,每约请一位好友关注”AI大学“"大众年夜众号,即可得到5积分,累计得到100积分可兑换代价299元的AI大学书包1个!
在公众年夜众号“讯飞AI大学”后台回答“AI大学码”急速体验新功能吧~