比如Siri,它说的最多的话是什么?"我没有听懂你在说什么"。"人工智障"的声音还听起来比较冰冷,没有情绪,以是一听就知道这不是人类说的。但最近的一个研究可能会改写"人工语音智障"的历史。
2023年3月8号微软再次宣告,他们在语音合成模型VALL-E上的研究取得了一个新的进展(见参考资料1)。只须要3秒钟,VALL-E就能够根据声纹模拟任何人的声音,乃至代替他们说出完备没节制过的外语。
在传统模式下,我们要逐字逐句去录制声音这样的演习(AI)。而VALL-E是通过离散代码演习天生的(参考资料2)。前期微软为它供应了7000多名演讲者,超过6万小时的演讲内容进行学习。听到一个人的声音后,VALL-E就能够把这段话分解成离散的组件,并用演习好的数据来进行匹配,那么就可以合成你须要的其他语句时候的声音波形。
而VALL-E还能让自己讲的话带有丰富的感情色彩,表达出愤怒、喜悦、困倦平分歧情景下的语气。如果把VALL-E和ChatGPT组合利用,我相信它们就会产生一些质的变革,同时它带来的潜在风险也必须值得我们当心。
往后比如说图像乃至视频都可以仿真性地天生,我们还怎么差异虚拟天下和现实天下?乃至未来电话的一句"你好"会不会被AI"偷走",让任何人都可以模拟其他人说话。
再往深层次想,它会不会成为犯罪分子的新工具,使得我们的电信诱骗更加的随意马虎发生。包括伪装某一个国王,比如说资助他帮他重新(复辟),某某富婆希望借精生子,这样的一些事情是不是就更随意马虎发生?
以是我们该如何去鉴别它到底是来自于真实的?还是人工合成的。这便是说人工智能的发展真的快到一个临界点了,这个技能的发展可能是挡不住的。
如何划清技能进步和伦理道德的分界点,确保技能、科技向善?我想这个是当下也要多加思考的,在保护创新的同时也该当规避个中的风险。
您是否支持这项技能的发展?假如有一天科幻片里的同声传译存在,还有必要学外语吗?欢迎在评论区留言分享。点赞、收藏、关注。