讯飞星火”是科大讯飞旗下通用大模型,也是海内首个全国产算力演习的大模型。
这次讯飞星火V3.5新版一口气带来了长文本、长图文与长语音三大能力升级,并且语音大模型也全新升级,带来了“多情绪超拟人合成”与“一句话声音复刻”两大功能。

如何让语音合成由“千篇一律”进化到“千人千面”?这须要强大的技能储备做支撑。
在语音合成领域,Blizzard Challenge是极具影响力的国际赛事,科大讯飞自2006年参赛夺冠以来,就开启了连续14年的冠军之路。
这次讯飞星火V3.5新版首发的多情绪超拟人合成功能,将全自然语音交互体验带上了新的台阶。

根据发布会上讯飞研究院院长刘聪的演示,这项功能让人机对话变得不再生硬和冰冷,AI女声被授予撒娇、安慰等拟人化的情绪表达,同时通报出困惑、高兴、难过等外化感情。
当刘聪奉告“五一”要看演唱会后,AI充满感情地回答道“我都能够想到你在现场欢呼的样子,哈哈,我好倾慕啊”,像是朋友间的一场对话,陪着你一起高兴。

全体演示都觉得是在与真人对话,抑扬抑扬悦耳入心,语气助词恰到好处。
根据PPT资料显示,讯飞星火多情绪超拟人情绪表达的可感知度达到了85%以上,无限靠近于真人的口语表达,生动而富有情绪,语气夹杂情调。
其余多情绪超拟人合成还支持“多语种智能语音”,早在2020年科大讯飞60个语种的语音识别、翻译和37个语种的语音合造诣超过了谷歌与微软,达到国际领先水平;而在2024年1月份,科大讯飞发布的讯飞星火V3.5,首批37个主流语种的语音识别效果已超过Open AI语音大模型Whisper V3。

讯飞星火多情感超拟人合成功能宣告AI语音更具人情味

而基于多情绪超拟人合成,还带来了另一项实用的功能,那便是“一句话声音复刻”。
当年高德舆图创始的明星原声播报功能,实在便是基于讯飞的语音合成技能,只不过当时志玲姐姐须要录制一个星期的声音。
过了几年,随着讯飞语音合成技能的升级,再录制郭德纲原声缩短至1小时。
现如今,你只要创建“发音人”,再朗读一段指定文本,大家都可以利用一句话声音复刻功能,轻松复刻出自己的声音。

别以为这是一种炫技的功能,它将能够在家庭亲子场景中扮演主要角色。
试想一下,当孩子习气了每晚在你童话故事的朗读声中熟睡,一旦你出差该怎么办?现在只要利用讯飞星火的一句话声音复刻功能,就能让AI还原你的声音,让孩子在你声音的陪伴下安然入睡。
每逢节假日,可爱的孙子看望爷爷奶奶,给他们读书说报,让老人内心暖暖的,一旦孙子回家二老内心总是空落落的。
如今有了一句话声音复刻,AI可以模拟聪明可爱的小孙子的声音给老人读书说报,让声音的陪伴温暖而持久。

从技能迭代角度,一句话声音复刻可以视为多情绪超拟人合成技能的进阶,授予声音个性化表达。
这个功能的上新,不仅意味着AI丰富的情绪表达迈入新台阶,也将会在科技助老、陪伴机器人等方向产生正向代价。
“我们希望在安全可控的条件下,能够带给社会更有温度的人工智能体验,能够真的帮助到那些特殊须要帮助的人,本日这个天下更须要有温度的科技。
”科大讯飞董事长刘庆峰说道。