大数据文摘出品

作者:蒋宝尚、魏子敏

最近,一只“总统洋葱新闻”在Youtube和Reddit上引发了一波谈论。

视频中,特朗普用它一向民主党人把太多数据存在运上,冷却后成为液体,末了通过降雨落下来,对地球生态造成巨大侵害。
想要避免这种致命液体,你须要躲在屋里,不要出门。

假声音也来了手把手教你造一只柯南的蝴蝶结变声器

视频地址:

https://www.youtube.com/watch?v=jzKlTKsHeus

虽然内容荒诞,但全体视频中的声音效果非常真实,以至于不少网友在捧腹大笑的同时也开始调侃,“是不是很快就能接到特朗普给我打的广告电话了。

再加上近期,“假脸”技能大肆盛行,与之配套的“假声音”上线后,更能天生无缝衔接的假视频,让假戏做足,真假难辨。

靠换脸技能”出演”《射雕英雄传》的杨幂

一键天生“假声音”

关于变音技能,江湖上确实流传了几种,不过加持了机器学习和深度学习,这种技能不再是大略的语音滤波器。

跟”一键变脸“的deepfake软件一样,研究者们也开拓了让不懂技能的同学直接易上手的变声软件。

刚刚听到的这个声音就来自若许一个网站Modulate.ai。
麻省理工科技评论的资深编辑Will Knight用其轻易就合成了不同的声音。

创建这个网站的三个小伙伴,有两个来自麻省理工,还有一个来自加州大学洛杉矶分校。
对付游客,这个网站给出了几个适用的声音,对付想定制名人声音的用户,还得通过官网给出的联系办法联系他们。

据网站先容,合成的声音是是采取神经网络演习来演习,具有低延迟性以及实时性。

文摘菌试了一把,在网站的供应的接口处录下声音,选择你想要的“性别”或者“名人”,网站会很快天生你想要的声音。

网站地址:

https://modulate.ai/

此外,百度在18年的3月份曾经宣告,百度开拓的新 AI 算法Deep Voice可以通过3.7秒钟的录音样本数据就能完美的克隆出一个人的声音。
Deep Voice是百度AI研究院一个由深度神经网络构建的高质量语音转(TTS )系统。
除了利用少量样本克隆声音外,系统还能将女性声音转变成男性,英式声音变成美式。

语音转语音的详细过程

声音的直接转换是比较繁芜的,由于一个人的“声音”不仅是由声带定义,声带只是声音的频率,详细来说,还取决于口音和说话风格。
其余,音高会受胸腔的物理特性等的影响。
这些影响浸染在不同的层面上,发音决定了单词和短语是如何在几秒钟或几十秒内被识别出来。

当开始合针言音时,技能职员紧张会考虑三个成分。

首先是生物成分,这些成分人们难以自行改变。
第二,构建声音认同观点,即任何在措辞下明显表现出来的同一性。
有了这个定义,就可以很好的建立语音识别模型。
第三,建立独立于高下文处理语音片段的模型,这个模型的好处是它比神经网络中所要处理的序列模型要大略的多,并且可以有效的降落语音处理延迟。

总的来说,所要建立的系统是:把一个说话人的声音的频率分布(frequency profile)换成另一个声音的频率分布,同时保持他们讲话的别的属性不变。

以是,自然的将系统分为两个部分:1、语音识别 2、语音转换。
这两个部分最紧张的差异是,是从语音转换到文本,还是从文本转换到语音。
如果这两个部分独立运行,那么全体系丢失“情绪模拟”。

语音转文本和文本转语音同属一个极度的情形。
语音转换必须利用媒介,由于系统只能给出语音,并且考试测验在输出中再现输入的语句。

通过限定某时段通过系统的信息量,系统学习识别功能(identity function),这是系统的瓶颈。
在从语音到文本到语音的情形下,瓶颈在于对输入的语音进行文本表示,因此系统必须进行一样平常性学习,才能根据文本天生可靠的语音。

从通过机器学习构建这样一个别系的角度来看,涌现瓶颈自然有其的道理。
机器学习,特殊是深度学习,当被演习来完成一项特定的任务时,一贯表现得非常好。
但是瓶颈自动编码器没有接管过语音转换的演习,他们接管的是自动编码演习。

破解瓶颈的紧张方法是调度信息瓶颈的带宽。
例如文本中间表示,会丢失太多信息。
文本可以利用情绪标签或其他符号进行注释,但这些须要对监督数据着重进行手动注释。

详细的步骤:

首先考试测验在两种不同的丢失函数上演习说话人标识符( identifie):真实音频匹配扬声器配置文件和天生音频,以及真实音频匹配扬声器配置文件和真实音频的扬声器配置文件。
使得说话人的标识符“探求”说话人身份,否则它只能关注于检测天生的音频。
在实践中,创造只有对两个丢失函数中的第一个函数的演习才能起到同样的浸染:说话人标识符首先学会区分真实的音频和天生的音频,然后随着天生器开始产生更高质量的输出,自然进化到利用说话人配置文件。

在神经网络的输入层对说话人标识符的大小设置了惩罚。
惩罚的大小是一个可调度的参数,通过演习效果进步明显与否,可以判断最优参数。
对付真实和假音频,我们最好的演习方向于快速收敛0.55的交叉熵,然后在大多数演习过程中逐步爬过0.6。

然后连续改进系统系构造,通过直接优化语音转换目标,通过一个新的说话人标识符,能够产生与目标声音紧密匹配的合针言音,同时保留了常日由瓶颈架构丢失的表达性。

AI合成大事宜

通过AI技能合成图片以及视频早已不新鲜,要说最著名的合成案例可能便是下面这个。

这项技能由华盛顿大学SUPASORN SUWAJANAKORN等三人共同发明,他们坦言,之以是选用奥巴马做研究范例,是由于他的高清视频资源获取非常随意马虎,并且不受版权限定。

因此,研究小组用神经网络剖析了数百万帧的视频,来确定奥巴马的面部表情如何变革。
开口说话须要全体面部器官的折衷,以是研究职员不仅剖析了口型变革,还包括他的嘴唇、牙齿和下巴周围的皱纹,乃至还包括脖子与衣领。

详细的操作过程是:研究职员采集了音频片段(原始音频文件),再把口型和新的音频文件剪辑匹配,再嫁接到新视频。

海内的科技公司也在这一领域各有千秋。
拿导航用的语音来说,科大讯飞的董事长刘庆峰在2018天下机器人大会上表示,高德舆图导航上面的林志玲、郭德纲的声音都是合成,实在都不是本人原音,而是由他们的机器来完成合成的,压根就不是本人录的。