最近,听到不少语音圈儿的盆友都在议论一场比赛。
什么超少样本啊,什么乱入啊,还有什么教诲……
咦,“教诲”是什么鬼?
仔细打听才知道,原来是刚刚落幕的国际TTS(语音合成)赛事M2VoC。
M2VoC,又称多说话人多风格音色克隆大赛,便是给你极少的语音样本(最少5个的那种),让你合成同种风格的声音。
这不就一场常规的技能玩家竞技盛会嘛?
盆友表示,意外就意外在,这次的子赛道冠军里,混进了一个“异类”——
搞直播网课的猿辅导。
搞在线教诲,还能搞出个AI冠军???
听说,获奖团队当时还有其他紧急任务,就随机派了两个人,硬挤了5天韶光来参赛。
疑似凡尔赛,而且有证据!
但桥豆麻袋,猿辅导,确定是一家在线教诲公司哈?!
还是先来看看比赛本身。
猿辅导乱入参加的比赛,是声学、语音和旗子暗记处理国际会议(ICASSP)旗子暗记处理寻衅期间任务——多说话人多风格音色克隆大赛(M2VoC)。
而ICASSP作为IEEE旗子暗记处理协会组织的年度会议,也是旗子暗记处理及运用方面最威信的会议之一。
据称,这还是天下上第一个小资源音色克隆寻衅赛。
大赛共分为两个赛道,一个少样本赛道,另一个是比“少样本”更少的赛道。
在极少样本赛道,参赛者须要针对不同说话风格和5个可用音色样本进行校验和测试。
每个赛道又分为开集和闭集。开集,即用任何公开数据;闭集,即只能用官方给到的数据。
终极共有150多支军队参赛,而在极少样本开集赛道中猿辅导得到了第一。
其余在少样本开集、极少样本闭集的赛道里,分别得到了第4、第5的成绩。
实际上,猿辅导这次比赛中呈现的,并非实验室技能。
而是一个早已经在小猿口算、猿辅导网课等产品中的技能,用于英语发音、题干读题等场景。
比如说读一个数学题,有些幼龄的小朋友字认不全,须要读出来让孩子理解;其余,老师们也可以设定一个题目,根据题目的笔墨合成一个音频。
尤其是在英语听力上的运用,发音哀求更为严苛。
但一线老师反馈说,这比公创办事更好用。
以前,由老师出题,然后找正规的英音、美音老师录制。一样平常外包公司制作一周才返回语音包。
如果有修正,那就最少2周,碰着节假日就更不可控了。
现在通过语音合成,一句10秒长度的句子,不到1秒就可以完针言音转化,效率上有很大的提升。
这样一来,2个人准备5天韶光就参加比赛,就也不是那么夸年夜了。
只是没想到的是,第一次征战国际赛事的他们,就得到子赛道第一的成绩。
对付这样的结果,他们表示有点意外。
拿到(极少样本开集)子赛道第一名,我们有点意外。技能领域的大牛很多,我们也会连续努力!
基本思路跟平时的演习流程同等,由大规模样本的预演习和小规模样本的微调演习组成。
至于获奖的缘故原由,团队内部分析认为,除了演习数据选的比较好之外,他们在语音合成的前端所采取的停顿、韵律模型,让合成出来的语音效果更加自然了。
一样平常来说,通用的语音合成技能,大都将目光聚焦在合成字眼的准确性。其他有如准确发音、韵律感情、适当停顿等问题常日不会顾及。
便是一个莫得感情的朗读机器~
但在教诲领域,这些平时随意马虎忽略的痛点,就变成了技能团队重点占领的工具。
既要担保在碰着类似多音字这样的情形时,发出精确的读音,又须要在面向低龄儿童的传授教化场景中,让拼读更加自然、富有韵律不生涩。
不能由于我冷漠,就延误了小孩学习呀!
(手动狗头)
也恰好由于这一点,猿辅导得到了主理方、评委会切实其实定。
在猿辅导搞技能是一种什么体验?以是,猿辅导作为一家在线教诲公司,为什么会涌如今语音合成技能的国际赛场上?
实在缘于一个有时的契机。
当时,这次的参赛队员杨明祺将随手刷到的大赛信息转发到语音组群里。就在研发同学们的日常吹水中,他们溘然想到,猿辅导在这方面已有技能积累,何不趁着这个比赛跟其他军队切磋互换一下,看看在统一任务下别人有什么不一样的想法可以借鉴学习。
这种保持对前沿技能关注、主动学习的操作,倒并不是临时起意,而是全体技能部门再正常不过的日常。
从他们坚持已久的一个习气中也可见一斑——
Paper reading,是猿辅导AI Lab自2014年景立以来一贯坚持至今的一项活动。
7年来,团队每周都会安排一位技能同学在组会时分享一篇前沿技能论文,并与其他同事深入互换谈论。
起初,全体实验室的都要一起参加这样的阅读会。后来随着规模的不断扩大,改为下设5个实验室分别举办,自己实验室的同学当然必须参加,其他实验室的人也可以根据兴趣参与进来。
不同技能之间的碰撞,也成为了猿辅导独占的技能方法论。
语音实验室语音合成组的杨明祺,就分享了一段经历。
在听到降噪小组分享有关提高信噪比的最新技能时,语音合成组就想到,是否能将这样的技能运用到TTS上来。由于平时采集的演习样本,录制环境不一,音质无法担保,而引入干系技能,就能从数据层面来提升终极合针言音的质量。
除此之外,作为一家在线教诲公司,猿辅导有更丰富、更详细的落地场景,因此也就要比一样平常的技能公司更看重技能落地。
低延时直播,便是这样一个例子。
市情上通用的直播技能,可能有1-3秒、乃至更长的延时,对付直播带货这个场景下影响不大,但假如在教诲传授教化上,学生和老师有着很强的互动需求,几秒的延时就会影响传授教化体验。
就比如,老师在课上提问,学生正在思考的时候,老师就已经给出答案讲下一个问题了。
因此,就须要将延时技能从3秒降到0.3秒,来坚持教室效果。
语音组马楠也表示,
很多时候,一线的传授教化老师提出需求,研发职员就要想办法结合最前辈的技能来知足。
以是平时看到一些新的论文、技能方案,也会想着能详细落到什么场景,能否合营一线老师传授教化。
也正由于看重落地的实质,他们随时保持着Ready的状态。
什么时候有新的需求,就想着法儿的用技能去知足,也因此团队成员们练就了能快速适应业务转型的本领。
马楠说,他们这个语音合成组,大多本来不是这个专业的,比如有的成员过去是做搜索的,可以说都是逐渐摸索学习过来的。
现在他们从一个想法到Demo,只须要半个月到1个月的韶光就可以达成。
因此,也不同于其他技能团队的造诣感,他们造诣感的来源,更多是一线老师的反馈。
“比公创办事更好用”,便是他们吸收到的最好的奖励。
隐蔽在教诲背后的技能实力事实上,虽然外界对猿辅导的认知更多地聚焦在“教诲”上,但猿辅导从成立之初,便是一家把“技能”视作核心竞争力的公司。
在2014年,猿辅导就成立了AI Lab,是在线教诲行业内首个成立AI研究院的企业。
从业务上看,猿辅导旗下有:拍一下就能秒出解题思路的小猿搜题,用AI帮助老师、家长批改作业的小猿口算,利用AI打造智能学习模型的斑马AI课……
其背后所须要的技能支持,不止于语音,还包括视觉、自然措辞理解、音视频等多个领域。
就用斑马AI课来举个例子好了。
斑马AI课作为目前海内面向学龄前儿童的最大在线课程学习平台,最吸引人的一点便是能做到“因材施教”。
也便是说,不仅仅是根据小盆友的年纪大略粗暴地划分学习阶段,而是让孩子也能自适应学习。
等等,自适应,这不是个教诲AI模型的办法吗?
实在是这么回事儿,以猿辅导百亿级少儿措辞行为大数据为根本,通过对孩子的措辞行为进行剖析,就能更加细致地理解到孩子当前的学习情形,进而智能地调度课程的难度、“打怪”的路径。上完网课,还能根据AI大数据剖析,天生个性化的学习报告,及时反馈学习成果。
其余,就像之条件到的,通用模型在落地到更加垂直的场景中时,表现每每不尽如人意。比如小朋友咿咿呀呀的发音,就比常规的成人语音识别更加困难,须要有针对性地网络数据、优化模型。
源于这样的背景,目前,猿辅导已经发展形针言音实验室、视觉实验室、自然措辞理解实验室、音视频实验室和根本支撑五大实验室。
而作为技能职员的马楠也强调:
对付我们的产品来说,前沿技能的支持并不是可有可无的,而是产品之以是能成立的核心缘故原由。
以搜题为例,如果OCR的准确率不足高,搜得不足准,用户根本就不会选择利用。
站在现在这个韶光节点,从用户选择的角度来看,猿辅导已经成为海内网课用户规模最大的在线教诲公司。
而从技能验证的层面来看,猿辅导曾先后在MS MARCO机器阅读理解水平测试、斯坦福问答数据集两项天下级NLP赛事中斩获冠军,如今也在语音等更多领域的天下赛事上崭露锋芒……
成本对其业务、技能的认可,也已落在了详细的数字上:估值155亿美金,是环球估值最高的在线教诲独角兽公司。
就在这样的高速发展之中,体量越来越大的猿辅导,在重视落地之外,也越来越看重“长期主义”。
马楠就透露,现在在技能团队内部,有相称一部分人力投入到了前沿技能的探索、攻关当中。这类研发事情在短期看来不会急速被用上,但公司认为,从长期发展的角度来看,这些积累将成为猿辅导技能护城河的关键组成。
末了,再来总结一下,猿辅导究竟是一家什么样的技能公司?
以在线教诲之名,从每个详细场景出发,将AI技能之力在各个产品中得以表示。
如果一项技能研发的很厉害但没用上,对猿辅导来说是不太可能的。
因此可以说,猿辅导的AI更具有实用主义色彩。
曾经,中国的教诲领域一度被认为格局已成。但以猿辅导为代表的第三代教诲科技公司,却以黑马之势登上历史舞台,撕开了一条新的攻击之路。
背后的核心关键词,正是技能,正是AI。
而教诲在AI等新一代技能驱动之下展现的潜力,或许才刚刚开始。
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态