这是一位90后江苏姑娘,在科大讯飞上海人工智能研究院领导一支均匀年事二十六七岁的团队,攻坚多语种智能语音技能领域“卡脖子”难题。

在五四青年节来临之际,高丽说,我们要始终坚持“用精确的方法做有用的研究”,要有信心、有勇气代表国家的最高科技实力,参与国际竞争。

找寻多语种智能语音技能的密钥

“语音合成”便是让机器“会说”。
不过在过去相称长一段韶光里,多语种智能语音技能的密钥一贯节制在谷歌、微软、Nuance等一众科技巨子手中。
2015年,高丽加入了这支成立五年之久的团队,专攻语音合成领域。

两年实现世界主要官方语种全覆盖背后是这支上海AI团队12年的死守

2019年,一场突变改变了科大讯飞上海多语种合成团队。
由于一些缘故原由,中国企业无法利用多语种智能语音技能,从而严重阻碍了国产品牌的发展。
在这样背景下,科大讯飞担起了这个重任,2019年底,开始全面布局多语种方向。
“上海多语种合成团队的职能便是让机器不但会说中文,还可以说国外语种,说少数民族措辞乃至方言。
”团队卖力人高丽先容道。

两年内完成天下上紧张官方语种的覆盖,并且效果上达到商用水平,办理多语种的人机交互、措辞互通等问题。
接到这样的目标,全体团队都有些没底。

要知道,多语种合成难度比较中英文合成大得多。
比如中文,它有一套成熟且推广度极高的汉语拼音体系,可以直接用在中文合成里,办理合成中由字到音的问题,但是天下上很多其他语种并没有一套比较完善的措辞学理论作为根本。
多模态文本分析,特殊是字音转换,就成了最令团队挠头的事。

“说实话,当时接到这个任务的时候,很有压力。
”作为团队卖力人,高丽说道,“在这些语种的研发过程中,我们团队很多时候是在探索和研究措辞学和工程学的高效领悟,我们期望通过构建一套最简洁的措辞学表征,来表示尽可能多的语义干系的内隐观点和语法系统,可以让模型进行高效的学习。

另一方面的压力则来源于小语种短缺措辞专家的支持。
在语音合成这件事上有个条件条件,便是须要找到专业且有声音特色的母语者,用专业的录音设备录制10小时以上的高品质音库。

“但是我们当时没有任何可以供应高品质多语种发音人的录音渠道,团队规模也只有10人旁边;新冠疫情的爆发,特殊是国外疫情的持续,给我们数据的跨国采集以及探求专家资源的支持,都带来了非常大的难度。
”高丽先容说。

于是,高丽的团队分成两步开展事情,一方面通过各种渠道进行发音人的拓展,截至目前,已经累积了环球100多个发音人渠道,另一方面成立紧急研究攻关小组,研发了一套通用性强、鲁棒性高的新一代多语种语音合成系统。

困难一个接着一个,但高丽的定力和底气来源于团队十年如一日的积累。
这支多措辞合成团队早在2010年就已成立,十多年来一贯在多语种合成领域默默耕耘,“经由10年的积累,我们在这方面已经有了一套通用的方法论,以是在端到端时期,我们可以快速构建一套全语种通用的基于Global phone的字音转换系统和多模态文本分析系统,使得端到端模型在工业界可以快速地实现家当运用。

经由两年努力,目前,全体团队的语音识别和语音合成能力已经达到了实际的商用水平;个中语音识别覆盖了60+语种,14种重点措辞识别率率先达到90%的实用水平;语音合成覆盖了30+语种,MOS分均达到4.0+的实用水平,知足商用级别哀求,有效办理了海内多语种智能语音技能被国外公司“卡脖子”的难题。
现阶段,团队依然在不断推陈出新,一方面追求新的技能高地,另一方面探索技能和产品的高度领悟,设计更多有温度的产品,实现多措辞的人机交互和人类措辞互通。

去年11月10日,在国际低资源多语种语音识别竞赛OpenASR中,科大讯飞-中科大语音及措辞信息处理国家工程实验室(USTC-NELSLIP)联合团队参加了所有15个语种受限赛道和7个语种非受限赛道,并全部取得第一名的成绩。

为“中国制造”出海产品供应自主可控办理方案

技能顶天,运用立地,未来还有很长的路要走,还有更高的山峰等着攀登。
冲破国外对多语种智能语音技能的垄断还只是出发点,高丽团队坚持源头技能创新和攻关,使这项技能在实际中得到利用,个中一个方向便是为“中国制造”出海产品供应自主可控办理方案。

在手机、家电方面,为海内浩瀚手机厂商供应包括中英在内的多语种语音识别、语音合成能力办理方案,并联合海尔研发多语种识别系统,助力其拓展东南亚市场;在车载交互方面,与上汽、长安、奇瑞等海内紧张出海汽车供应商,以及俄罗斯汽车工程研究院(NAMI)等外洋车厂开展多语种项目互助,覆盖英语、俄语、日语、泰语、西班牙语、意大利语等数十个语种。

“我们要始终保持一个开放、自省的心态,不断地接管新鲜血液,给团队带来更多可能,同时我们要始终坚持‘用精确的方法做有用的研究’,这样你的需求在不断拓展,方法也在不断创新。
”高丽先容说,未来,她的团队期望构建更为完备的多模态文本分析系统,在更多语种上进行推广运用,同时也期望他们的多模态文本分析系统可以做事于机器翻译、语义理解等方向,给大家带来更多更懂你的AI技能和产品。

而在精密严谨之外,高丽已经创造了AI技能温情的一壁。
他们研发的人工智能语音合成技能对方言保护、拯救濒危措辞等具有主要意义。

联合国教科文组织数据表明,天下范围内,均匀每两周就有一种措辞消逝。
在我国,随着普通话的遍及,一些少数民族措辞、方言等弱势措辞已经濒临灭绝。
以满语为例,每一亿个中国人中,只有一人能够闇练节制这种措辞。

“措辞的意义除了作为互换工具而存在,更是民族文化和历史的载体。
每当一种措辞走向消亡,同时阔别我们的还有绵延留长、用措辞来传承的人类文化遗产。
人工智能的涌现,让濒危的弱势措辞又有了复活的可能。
”高丽期望团队研发出的AI语音合成技能,开展濒危措辞的复刻,比如锡伯语、彝语等少数民族措辞,上海话、苏州话、客家话等方言,传承人类文化宝贝和保护濒危措辞。

“保护措辞多样性便是保护文化多样性,而保护文化多样性也是保护人类命运共同体的多样性。

作者:徐晶卉

编辑:周渊