最近,听到不少语音圈儿的盆友都在议论一场比赛。

什么超少样本啊,什么乱入啊,还有什么教诲……

咦,“教诲”是什么鬼?

仔细打听才知道,原来是刚刚落幕的国际TTS(语音合成)赛事M2VoC。

猿指导一家被在线教诲耽搁的技能公司

M2VoC,又称多说话人多风格音色克隆大赛,便是给你极少的语音样本(最少5个的那种),让你合成同种风格的声音。

这不就一场常规的技能玩家竞技盛会嘛?

盆友表示,意外就意外在,这次的子赛道冠军里,混进了一个“异类”——

搞直播网课的猿辅导

搞在线教诲,还能搞出个AI冠军???

听说,获奖团队当时还有其他紧急任务,就随机派了两个人,硬挤了5天韶光来参赛。

疑似凡尔赛,而且有证据!

但桥豆麻袋,猿辅导,确定是一家在线教诲公司哈?!

M2VoC首战告捷

还是先来看看比赛本身。

猿辅导乱入参加的比赛,是声学、语音和旗子暗记处理国际会议(ICASSP)旗子暗记处理寻衅期间任务——多说话人多风格音色克隆大赛(M2VoC)。

而ICASSP作为IEEE旗子暗记处理协会组织的年度会议,也是旗子暗记处理及运用方面最威信的会议之一。

据称,这还是天下上第一个小资源音色克隆寻衅赛。

大赛共分为两个赛道,一个少样本赛道,另一个是比“少样本”更少的赛道。

在极少样本赛道,参赛者须要针对不同说话风格和5个可用音色样本进行校验和测试。

每个赛道又分为开集和闭集。
开集,即用任何公开数据;闭集,即只能用官方给到的数据。

终极共有150多支军队参赛,而在极少样本开集赛道中猿辅导得到了第一。

其余在少样本开集、极少样本闭集的赛道里,分别得到了第4、第5的成绩。

实际上,猿辅导这次比赛中呈现的,并非实验室技能。

而是一个早已经在小猿口算、猿辅导网课等产品中的技能,用于英语发音、题干读题等场景。

比如说读一个数学题,有些幼龄的小朋友字认不全,须要读出来让孩子理解;其余,老师们也可以设定一个题目,根据题目的笔墨合成一个音频。

尤其是在英语听力上的运用,发音哀求更为严苛。

但一线老师反馈说,这比公创办事更好用。

以前,由老师出题,然后找正规的英音、美音老师录制。
一样平常外包公司制作一周才返回语音包。

如果有修正,那就最少2周,碰着节假日就更不可控了。

现在通过语音合成,一句10秒长度的句子,不到1秒就可以完针言音转化,效率上有很大的提升。

这样一来,2个人准备5天韶光就参加比赛,就也不是那么夸年夜了。

只是没想到的是,第一次征战国际赛事的他们,就得到子赛道第一的成绩。

对付这样的结果,他们表示有点意外。

拿到(极少样本开集)子赛道第一名,我们有点意外。
技能领域的大牛很多,我们也会连续努力!

基本思路跟平时的演习流程同等,由大规模样本的预演习和小规模样本的微调演习组成。

至于获奖的缘故原由,团队内部分析认为,除了演习数据选的比较好之外,他们在语音合成的前端所采取的停顿、韵律模型,让合成出来的语音效果更加自然了。

一样平常来说,通用的语音合成技能,大都将目光聚焦在合成字眼的准确性。
其他有如准确发音、韵律感情、适当停顿等问题常日不会顾及。

便是一个莫得感情的朗读机器~

但在教诲领域,这些平时随意马虎忽略的痛点,就变成了技能团队重点占领的工具。

既要担保在碰着类似多音字这样的情形时,发出精确的读音,又须要在面向低龄儿童的传授教化场景中,让拼读更加自然、富有韵律不生涩。

不能由于我冷漠,就延误了小孩学习呀!
(手动狗头)

也恰好由于这一点,猿辅导得到了主理方、评委会切实其实定。

在猿辅导搞技能是一种什么体验?

以是,猿辅导作为一家在线教诲公司,为什么会涌如今语音合成技能的国际赛场上?

实在缘于一个有时的契机。

当时,这次的参赛队员杨明祺将随手刷到的大赛信息转发到语音组群里。
就在研发同学们的日常吹水中,他们溘然想到,猿辅导在这方面已有技能积累,何不趁着这个比赛跟其他军队切磋互换一下,看看在统一任务下别人有什么不一样的想法可以借鉴学习。

这种保持对前沿技能关注、主动学习的操作,倒并不是临时起意,而是全体技能部门再正常不过的日常。

从他们坚持已久的一个习气中也可见一斑——

Paper reading,是猿辅导AI Lab自2014年景立以来一贯坚持至今的一项活动。

7年来,团队每周都会安排一位技能同学在组会时分享一篇前沿技能论文,并与其他同事深入互换谈论。

起初,全体实验室的都要一起参加这样的阅读会。
后来随着规模的不断扩大,改为下设5个实验室分别举办,自己实验室的同学当然必须参加,其他实验室的人也可以根据兴趣参与进来。

不同技能之间的碰撞,也成为了猿辅导独占的技能方法论。

语音实验室语音合成组的杨明祺,就分享了一段经历。

在听到降噪小组分享有关提高信噪比的最新技能时,语音合成组就想到,是否能将这样的技能运用到TTS上来。
由于平时采集的演习样本,录制环境不一,音质无法担保,而引入干系技能,就能从数据层面来提升终极合针言音的质量。

除此之外,作为一家在线教诲公司,猿辅导有更丰富、更详细的落地场景,因此也就要比一样平常的技能公司更看重技能落地。

低延时直播,便是这样一个例子。

市情上通用的直播技能,可能有1-3秒、乃至更长的延时,对付直播带货这个场景下影响不大,但假如在教诲传授教化上,学生和老师有着很强的互动需求,几秒的延时就会影响传授教化体验。

就比如,老师在课上提问,学生正在思考的时候,老师就已经给出答案讲下一个问题了。

因此,就须要将延时技能从3秒降到0.3秒,来坚持教室效果。

语音组马楠也表示,

很多时候,一线的传授教化老师提出需求,研发职员就要想办法结合最前辈的技能来知足。

以是平时看到一些新的论文、技能方案,也会想着能详细落到什么场景,能否合营一线老师传授教化。

也正由于看重落地的实质,他们随时保持着Ready的状态。

什么时候有新的需求,就想着法儿的用技能去知足,也因此团队成员们练就了能快速适应业务转型的本领。

马楠说,他们这个语音合成组,大多本来不是这个专业的,比如有的成员过去是做搜索的,可以说都是逐渐摸索学习过来的。

现在他们从一个想法到Demo,只须要半个月到1个月的韶光就可以达成。

因此,也不同于其他技能团队的造诣感,他们造诣感的来源,更多是一线老师的反馈。

“比公创办事更好用”,便是他们吸收到的最好的奖励。

隐蔽在教诲背后的技能实力

事实上,虽然外界对猿辅导的认知更多地聚焦在“教诲”上,但猿辅导从成立之初,便是一家把“技能”视作核心竞争力的公司。

在2014年,猿辅导就成立了AI Lab,是在线教诲行业内首个成立AI研究院的企业。

从业务上看,猿辅导旗下有:拍一下就能秒出解题思路的小猿搜题,用AI帮助老师、家长批改作业的小猿口算,利用AI打造智能学习模型的斑马AI课……

其背后所须要的技能支持,不止于语音,还包括视觉、自然措辞理解、音视频等多个领域。

就用斑马AI课来举个例子好了。

斑马AI课作为目前海内面向学龄前儿童的最大在线课程学习平台,最吸引人的一点便是能做到“因材施教”。

也便是说,不仅仅是根据小盆友的年纪大略粗暴地划分学习阶段,而是让孩子也能自适应学习。

等等,自适应,这不是个教诲AI模型的办法吗?

实在是这么回事儿,以猿辅导百亿级少儿措辞行为大数据为根本,通过对孩子的措辞行为进行剖析,就能更加细致地理解到孩子当前的学习情形,进而智能地调度课程的难度、“打怪”的路径。
上完网课,还能根据AI大数据剖析,天生个性化的学习报告,及时反馈学习成果。

其余,就像之条件到的,通用模型在落地到更加垂直的场景中时,表现每每不尽如人意。
比如小朋友咿咿呀呀的发音,就比常规的成人语音识别更加困难,须要有针对性地网络数据、优化模型。

源于这样的背景,目前,猿辅导已经发展形针言音实验室、视觉实验室、自然措辞理解实验室、音视频实验室和根本支撑五大实验室。

而作为技能职员的马楠也强调:

对付我们的产品来说,前沿技能的支持并不是可有可无的,而是产品之以是能成立的核心缘故原由。

以搜题为例,如果OCR的准确率不足高,搜得不足准,用户根本就不会选择利用。

站在现在这个韶光节点,从用户选择的角度来看,猿辅导已经成为海内网课用户规模最大的在线教诲公司。

而从技能验证的层面来看,猿辅导曾先后在MS MARCO机器阅读理解水平测试、斯坦福问答数据集两项天下级NLP赛事中斩获冠军,如今也在语音等更多领域的天下赛事上崭露锋芒……

成本对其业务、技能的认可,也已落在了详细的数字上:估值155亿美金,是环球估值最高的在线教诲独角兽公司。

就在这样的高速发展之中,体量越来越大的猿辅导,在重视落地之外,也越来越看重“长期主义”。

马楠就透露,现在在技能团队内部,有相称一部分人力投入到了前沿技能的探索、攻关当中。
这类研发事情在短期看来不会急速被用上,但公司认为,从长期发展的角度来看,这些积累将成为猿辅导技能护城河的关键组成。

末了,再来总结一下,猿辅导究竟是一家什么样的技能公司?

以在线教诲之名,从每个详细场景出发,将AI技能之力在各个产品中得以表示。

如果一项技能研发的很厉害但没用上,对猿辅导来说是不太可能的。

因此可以说,猿辅导的AI更具有实用主义色彩。

曾经,中国的教诲领域一度被认为格局已成。
但以猿辅导为代表的第三代教诲科技公司,却以黑马之势登上历史舞台,撕开了一条新的攻击之路。

背后的核心关键词,正是技能,正是AI。

而教诲在AI等新一代技能驱动之下展现的潜力,或许才刚刚开始。

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态