量子位 | 公众年夜众号 QbitAI

OpenAI雪藏的新产品——语音合成引擎Voice Engine,终于被正式揭幕。

有了它,只需15秒的语音样本,就能克隆出一个人的声音,而且还能超过措辞!

APP版ChatGPT中的语音对话功能,也正是由这项技能所驱动。

OpenAI藏了1年多的技能公开15秒素材克隆声音HeyGen也在用

效果如何?先来听段DEMO:

Salt also makes sure we stay hydrated which means there is enough water in our body for it to properly function.盐分也可以保持人体内的水分,确保其知足正常功能的须要。

【音频效果请移步"大众年夜众号】

而OpenAI通知布告显示,他们在2022年底就已经开拓出了这项技能,但出于安全考虑一贯没有正式发布。

这次,OpenAI终于官宣了Voice Engine,并展示了小规模测试中的几个运用案例。

比如,一家非营利医疗机构就利用这项技能,为一名年轻的病人规复了她的声音。

其余值得一提的是,去年爆火的视频翻译软件HeyGen,采取的语音引擎也正是Voice Engine。

那么,这次OpenAI还展现了哪些效果,下面就来一睹为快。

用AI帮助病患规复声音

首先是利用根本的语音合成能力,为儿童等不具备笔墨阅读能力的群体供应阅读赞助。

比如一家儿童教诲技能公司,就一贯在利用Voice Engine来给编写好的画外音内容配音。

DEMO中天生的大段内容,都是基于这样一段15秒的样本:

【音频效果请移步"大众号】

然后,就可以合成相同音色的长段语音:

【音频效果请移步"大众年夜众号】

再来看看HeyGen中用到的的语音翻译技能,原始素材是一段英语的音频:

【音频效果请移步公众号】

它被用原始的音色,翻译成了普通话、法语、德语等多种措辞。

忽略译文的质量,只听声音,中文的效果是这样的:

【音频效果请移步"大众年夜众号】

音色保持的还算不错,不过腔调很明显一听便是外国人在说中文。

至于这到底是个bug还是个feature,就见仁见智了(手动狗头)。

此外,一款名为Livox的残障人士赞助运用,也利用Voice Engine为不能说话的残障人士“发生发火声音”——

在有了Voice Engine之后,TA们可以选择专属的真人音色,而不再是机器感明显的合成音,并且在各种措辞之间都能保持音色的同等性。

不但是帮助残障人士拥有自己的声音,Voice Engine还可以为因疾病导致声音发生在重大改变的人群,规复患病之前声音,只要有以前的声音样本就能实现。

一名年轻的患者因罹患血管性脑肿瘤,失落去了流利讲话的能力,说话变成了这样:

【音频效果请移步公众年夜众号】

年夜夫从她所在学校录制的视频中提取到了她患病前的声音作为样本,在Voice Engine的帮助下为她规复了此前的音色。

【音频效果请移步"大众年夜众号】

这次发布的案例,特殊是为不便人士供应帮助的场景受到了不少好评,但也有网友对这项技能的滥用表达了担忧。

安全问题须要全社会共同关注

实际上,安全问题也是OpenAI迟迟未将这项技能公之于众的紧张考量。

出于安全考虑,前面案例的开拓者都经由了OpenAI的严格筛选,并且须要承诺遵守利用协议。

这些开拓者被哀求必须明确解释声音是合成的,并且设定了黑名单以防止克隆公众人物声音。

此外,OpenAI还向合成的声音中添加了水印,以便涌现问题时可以进行检测监控,同时呼吁人们采纳方法共同应对这一问题:

在银行等敏感信息的安全验证方法中逐步淘汰语音验证办法探索AI时期下个人声音的保护方法教诲"大众年夜众理解AI的局限性,并理解其被用于敲诈的可能加速开拓跟踪溯源技能,让人们能够清晰辨别出真人和AI

参考链接:https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态