对付一样平常人而言,最早打仗的AI天生语音基本便是各个大厂推出的TTS语音,范例的比如咱们常常听到的“这个人叫小帅,那个女人叫小美”那种电影讲授。
然后,这期间(实在也就这一两年旁边的区间),陆陆续续涌现SoVITS, SVD-SoVITS, Bark, XTTS, Bert-VITS, GPT-SoVITS等等或能克隆语音,或者直接天生AI人声的技能和方法。
直到,前几天横空出世一个ChatTTS(我已经发布过先容,可以翻看我前几天的内容),让全网搞AI的沸腾了,乃至涌现破圈效应,我也接到了其他行业的人来咨询如何支配测试利用等等问题。确实这个项目的声音让人已经对人声真假难辨了,很难听出来AI的机器感声音。
不过,现在,字节跳动又公开了一项技能,Seed-TTS(https://bytedancespeech.github.io/seedtts_tech_report/)。
直接把人声天生、克隆、翻译、编辑天生等等日常业务中涉及到的场景全集成到一块了。声音也是牛,真的是玩出了花~~~详细想体验的可以去他们官方先容页面听听效果。
相信往后搞配音事情、博客、电台等等行业,会越来越感想熏染到压力陡增吧?
不过,这年头,又有哪个行业能逃出AI的进军呢?若你还未切身感想熏染到的话,只解释韶光早晚罢了~~~