图中为DeNA x AI的部分研究
DeNA x AI部门的研究业务甚广,比如多功能水坝拦截水量的预测与高效利用、煤火电厂燃料利用最大化、摄像机图片剖析、制药等。分别涉及了声音合成、深度学习、人像识别、人物追踪、数据科学、打算机视觉等等技能。
5月12日,DeNA公布了变声AI“VOICE AVATAR 七声Nina”(下简称七声Nina),AI能够将用户的声音转变为美少女的声音。产品仍在开拓中,能够在电脑端与手机端通过浏览器体验该产品。
七声Nina的拟人形象。声优高田忧希为其供应了声音样本。
“七声Nina”的事情事理
大略来说,是AI对付人声信息进行提取后,经由打算重新输出语音。但是七声Nina与普通的变声器有根本性的差异。
变声器的事理是改变音频的音色与腔调,从声音工程的角度上改变人声,根据调试的情形,可以变成输出各种声音,但变声器并不进行人声的识别,并且变声每每并不彻底,会留下男性声音的痕迹。
而七声Nina这一的变声AI须要对人声进行识别,提取关键信息后通过自身程序输出声音,个中并不涉及音色和腔调的改变,输出的声音只属于七声Nina,由于输出的音源便是少女的声音,自然就不会有男性声音的痕迹。而这一过程须要大量的打算。
研发团队当前的方向,是进一步优化AI的情绪表现、喜怒哀乐,将七声Nina的变声功能演习的更为自然。根据DeNA Enginner’s Blog的解释,AI通过PyTorch进行演习,利用了Serverless、Cold Start、FastAPI、google-cloud-firestore、Hypercorn等技能。
DeNA这次公布七声Nina,正是希望通过这次试行,让AI通过深度学习进一步积累技能履历,向下一阶段进化。
这是虚拟主播wakaba对七声Nina变声的实机演示。
可以看到,虽然眼下还有一些瑕疵,比如说话意群之间有些迟滞、部分声音仍比较机器,在说话人语速过快的时候,AI难以捕捉完全的信息,转换出的语句存在意群的缺失落,但总体已经足够让人惊喜,发音算得上清晰,也能觉得到语气和感情变革。相信伴随着深度学习,七声Nina会越来越精准、生动。
化“声”美少女,“七声Nina”到底知足了哪些需求?
七声Nina的主页上表示产品适用于游戏语音、网络直播、线上约会、视频会议等场合。DeNA称产品理念为“声音的配饰”,希望肃清人们生活中各种各样的障碍。
部分日本网友的评论
日本社会中,人们对付社交压力十分敏感,对付个人隐私也更为看重,因此不少人有这样的变声须要。日本各界人士都揭橥了意见。
网友@nanaha_redstar表示,日益成熟的变声技能能够帮助那些利用美少女人设直播,却无法出声的男性Youtuber。而“声音的配饰”这一理念非常合贰心意,能够想象将来利用该功能办理各种生活障碍。
声优小岩井小鸟说,没想到人声AI的声音赶过预期的自然,仅在短短几年之间,变声技能就进步了如此之多。
note.com的CXO深津贵之则表示,内容转换的精准度非常高。本来只须要用来变声即可,但DeNA却在AI互动方面也下了功夫,有趣的互动让他一下子喜好上了产品,以为试用过程非常愉快。他认为变声技能是今后不可或缺的技能,非常期待其发展。
然而GameLook认为,纵然抛开上述须要,这样的变声AI也一定大有其市场。不止在日本,在环球都能盛行,只因人类本能上就存在着一种角色扮演的欲望,这也是我们之以是对小说、电影、游戏等乐此不疲的缘故原由,由于它们展现了一种不一样的人生,或许并不是大家渴望代入到其他故事中,但每个人一定都有过从当前生活中抽离出去的动机。
微博疯转五万余次,每个人心中都有演出欲和整蛊欲
不久前,博主“姜峰真的苟”女装并利用伪音和兄弟吃海底捞的视频破圈大热。所谓伪音,是指男性会利用女性声线。这足以解释每个人对付这类整蛊和演出的狂酷爱好。
如果说线下尚有重重限定,那么线上的人们已经卸除大部分的束缚。无数网游和单机中,操作女性角色的屏幕背后每每是堂堂八尺男儿,这种征象已经习认为常,大家该当和GameLook都一样感同身受。在我们用“人妖号”对这征象进行调侃的同时,它却反响了大家在网络上忘怀现实,冲破枷锁的诉求。如果有朝一日像七声Nina这样的变声AI达到了足够的完成度,想必“双兔傍地走,安能辨我是雄雌?”的网络环境一定会成为现实。
声音AI干系的技能在多个领域有极大代价
GameLook此前就宣布过不少与声音干系的AI技能。
个中,英国的Sonantic推出了“天下上第一个会哭的AI”——Faith,主打感情表达。用户能够利用它来为作品配音,对付演绎上不满意的台词,可以通过Sonantic进行调度,主攻的是AI配音方向,用以帮助开拓者节省本钱。
而英特尔公布的“Intel Bleep”技能,旨在通过AI与硬件结合的办法过滤游戏中的不文明语音,让玩家在在游戏实时谈天中避开来自其他人的脏话和骚扰,主攻的关键词屏蔽方向,用以提高用户体验。
亚洲方面,韩国的Supertone通过语音系统合成了已故的韩国有名歌手金光石的歌声,乃至于连他的家人都以为与真人无异。这一技能不仅对付许多抱憾的歌迷而言是莫大的幸福,试想这一技能更进一步,那么至少从声音面上我们就能带回故人,或许对付部分人群的生理治疗有莫大的帮助。
而本次公布的变声AI,虽然尚未成熟,但它不止将会办理日常生活中各种分外情景的发声障碍,更将能够知足人们个性上的追求。唯一遗憾的是,目前还没有女生转到男性声音的AI,不过有七声Nina投石问路,想必后续发展不会太困难。
除上述GameLook宣布过的技能之外,还有大家日常生活中一贯利用到的Siri等声音AI技能,声音AI技能已经融入了我们的生活之中。
可以看到,不论是关键字屏蔽,再现人声,或是声控系统、变声等问题,要想追求大范围的运用、良好的效果,必须依赖AI技能办理,且这些问题背后都指向了某一人群的核心需求,都是能够改变业界、乃至是造福社会的技能,是业界不容忽略的领域。