在本日的内容开始之前,大家可以先戳下面的声音听一下,不长,只有18秒,是一个妹子在唱Adele的有名歌曲Rolling in the Deep。
有熟习二次元天下的盆友可能听出来了,这段歌声听起来像佐藤莎莎拉,她是声音编辑软件CeVIO开拓的虚拟歌姬。
不过,莎莎拉本尊的声音彷佛听起来更“电子”一些,而上面这段Rolling in the Deep听起来就彷佛是一个声音和莎莎拉一样的真人唱的。
并不。
事实上,这这天本语音合成技能的最新打破,只要时长2小时的某歌手的歌声数据,通过深度学习技能,就可以合成出跟这个人千篇一律的歌声。
如此真实的莎莎拉声音,让微博上的二次元粉丝惊呼:我的老婆要重生了!
乃至还有人已经预见到了,这将颠覆鬼畜圈。
嗯,往后B站UP主们就可以让丞相非常自然的唱骂王司徒了。
而在音乐界,这个新技能能让我们欣赏更多不同的歌曲。
举个例子,只要让AI听林俊杰的三张专辑,AI就可以用林俊杰的声音,唱出周杰伦、五月天、孙燕姿他们的任何一首歌。
并且,你会完备听不出电子合成的痕迹。
那下面,我们来欣赏一下这个AI在唱日文、英文、中文歌的不同表现吧:
日文版
前后分别是《Diamonds》和《瞳》两首歌,你可以依次听到每首歌带伴奏的完全版、清唱版和以前的技能天生的旧版本。
(视频从“量子位”"大众年夜众号最新文章获取:https://mp.weixin.qq.com/s/xziFQRlbn2vQCNBEsdRd_g)
可以清晰的听出来,新技能天生的版本险些和真人唱歌千篇一律,完备没有旧版本那种浓浓的电子音。
英文版
英文歌则是《Rolling In The Deep》和《Everytime》两首,三个版本的顺序和上面的日文版相同。
(视频从“量子位”"大众年夜众号最新文章获取:https://mp.weixin.qq.com/s/xziFQRlbn2vQCNBEsdRd_g)
英文版的清唱已经听起来跟正凡人类唱歌没什么差异了,带上伴奏会有一丝丝违和,但单词的发音已经比旧技能的版本清晰多了。
不过,如果你仔细听了带伴奏的版本,会创造比较日文歌,这个AI在唱英文歌的时候还是有一丝丝电音的觉得。
中文版
终于到中文歌了,中文歌是陈奕迅的《爱情转移》。
(视频从“量子位”"大众年夜众号最新文章获取:https://mp.weixin.qq.com/s/xziFQRlbn2vQCNBEsdRd_g)
这位AI唱中文歌的特点,便是一个字一个字的蹦,可能日本公民便是这么学中文的吧。
不过,仔细听还是可以听出它的潜质的,至少“让上次犯的错反省出梦想”末了一个字“想”,这个长音还是足够婉转的。
后一句“做爱情代罪的羔羊”,切实其实沙哑出了真人的觉得,看来AI已经理解到,这种溘然变高的声音,普通人类是唱不上去的。
看来,要想学得像,也要学人类缺陷啊,至少比旧技能那种强行飙高音的假唱听着舒畅多了。
这背后是谁?开拓CeVIO的Techno Speech是一家的是由名古屋工业大学投资的创业公司,成立于2009年11月,紧张业务是向外界供应打算机多媒体软硬件。
除了在成本层面,这家公司也和学校有着千丝万缕的联系,Techno Speech成立的目的正是传播名古屋工业大学开拓的天下上最前辈的音频干系技能。
名古屋工业大学语音技能研究室的德田惠一教授主导开拓了以上项目,而从他实验室走出的大浦圭一郎博士正是Techno Speech的代理董事。
△Techno Speech社长 大浦圭一郎
这次合成的声音用的是Techno Speech的CeVIO语音合成软件。
除此之外,这家公司还开拓了其他一些有名的产品。
Techno Speech和日本卡拉OK公司Joysound互助,希望AI不仅能学会唱歌,将来还能教会人类唱歌。它不同于一样平常的开原唱声,而是实时合成措辞,目前已经支持险些所有日文歌曲。
大名鼎鼎的软银Pepper机器人也用上了他们的技能,他们曾得到过2017年“康健王国 for Pepper”机器人运用寻衅赛大奖。
Pepper机器人装上他们的运用程序后,可以实现机器与人合唱,还能在唱完歌后给进行评论。
Techno Speech希望用这项技能办理养老院的娱乐举动步伐问题。
利用了什么技能?这一进步背后的技能细节,名古屋工业大学的研究团队没有透露,但表示明年3月,德田惠一团队将会在的日本声学学会春季会议上发布研究成果。
不过,在接管数码音乐网站DTM Station采访时,德田惠一也透露了一些细节:这个别系利用的是深度神经网络技能(DNN)。
△德田惠一教授
在德田惠一自己的主页上,有很多语音合成的论文记录。最近也有一篇,刚好跟DNN有关。
在提到与日本版微软小冰“玲奈”的比拟时,德田惠一称,微软的“玲奈”是从“歌词和歌声”到“歌声”,采取的是应对仿照用户的唱歌方法,而他们的这个,完备是歌词和乐谱结合来合成歌声。
此外,据先容这项技能未来可以利用到下面8个领域:
复现歌星的歌声(包括去世者的声音)音乐制作和游戏开拓由虚拟YouTubers主持的视频流/直播虚拟演员后期录制系统AI或语音对话系统的发声模块天生灵巧的参考语音,用于外语学习或歌唱教诲为ALS(渐冻人症)或喉癌患者制作语音设备制作照顾护士举动步伐的数字标牌专家解读“AI合成歌声”关于这件事,量子位也请教了一些业内专家大神。
小冰首席语音科学家栾剑说,他听了CeVIO的演唱版本,日文和英文上的发音还不错,比较亲切,但更关注的是演习韶光。
栾剑也看了CeVIO在B站的案例,不过以为可能不是2小时的演习成果。一样平常来说,数据量越小,出高质量合成的难度越大。
今年,小冰六代发布会上,微软发布了一个4小时演习后的模型,当时效果反响不错。
但这位小冰首席语音科学家也强调,对付唱歌的评价更偏主不雅观,不同人有不同的评价,以是评价标准并分歧一。
如果以如何把人类的情绪仿照到极致来看,栾剑则认为技能寻衅在情绪。
“唱歌跟说话不同,对情绪表达的哀求非常高,嗓音、气息都会影响到末了的效果,以是如何更具情绪是唱歌合成的难点。”
除了小冰,AI语音公司思必驰去年也在央视《机警过人》节目中亮相过AI唱歌项目。
思必驰联合创始人、首席科学家俞凯当时对AI合成歌声系统有过解读。
歌声合成是语音合成领域的一个分支,是给定笔墨和乐谱,天生唱歌语音的过程。
主体方法是在笔墨到语音合成的根本上,通过乐谱给定每个“汉字”的腔调和“汉字”的发音是非,汉字以不同的腔调合成出来就变成了歌唱。
唱歌模型是在朗读模型的根本上,通过改变音调实现笔墨与旋律的合营,并进一步利用深度学习去学习同一说话人演唱歌曲和朗读歌词之间频谱特色的差异。
标贝科技CTO李秀林见告量子位,就目前的发展状况来看,AI合成歌声还有一些寻衅。
这位TTS领域的大牛,曾是百度T9,因语音合成拿到百度年度最高奖,后来在滴滴任职语音团队卖力人,在语音合成领域履历赫赫。
李秀林认为寻衅有两点:
一方面是音域的限定,每个歌手都有适宜自己的音域范围,如果超出范围的歌曲,合成效果可能会受到一定的影响。
其余,演习数据的限定,会影响基于神经网络的模型效果。
但新系统的效果与之前比较,有了很明显提升,机器声的觉得大幅低落,更靠近真人的嗓音。
One More Thing目前,海内AI唱歌最有名的还是微软小冰。
自2016年小冰以歌手身份出道以来,已发布了十几首靠近人类质量的单曲。2017年9月尾,第五代小冰解锁了人工智能歌手深度学习模型,还放下狠话:
我冲击的不是人类,而是传统的虚拟歌手。人类们,忘了漫长辛劳的手工调教吧。
一时反响激烈。
这一次,各方评论也纷纭提到了微软小冰。
不过小冰首席语音科学家栾剑也说,由于CeVIO没出中文版,以是跟最新的小冰六代还难以直接比拼。
但小冰团队对自家“女儿”非常自傲,他们更希望让小冰直接唱给大家听。
由于"大众年夜众号图文视频数量的限定,无法在此呈现了。
在量子位公众号对话界面回答“小冰唱歌”,给你听4小时演习后小冰六代的歌声。
— 完 —
诚挚招聘
量子位正在招募编辑/,事情地点在北京中关村落。期待有才华、有激情亲切的同学加入我们!
干系细节,请在量子位"大众年夜众号(QbitAI)对话界面,回答“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技能和产品新动态