【新智元导读】4月1日,张国荣“复活”了。网友用AI+殊效技能,给张国荣换脸,并且演唱了两首经典歌曲。6分钟的“复活”视频,纪念哥哥。
再次见到你,真好。
4月1日愚人节,也是张国荣的忌日。本日,在哥哥张国荣离开的第16个年头,有网友用AI让张国荣“复活”,并且演唱了经典歌曲《千千阙歌》、《玻璃之情》。
在视频中,AI“复活”的哥哥正在录音棚中录着歌曲,开场一开口,从唱歌的表情、动作都与张国荣颇为神似。网友们不经大呼:“太像了”、“泪目”、“哭了”、“想你了,哥哥”。
张国荣是那般的传奇,芳华绝代,只管去世16年,但每年的4月1日,人们一贯想努力把他的每一壁都留下来,今年是AI。
AI“复活”张国荣6分钟这段视频长达6分钟,“张国荣”分别穿着两套衣服唱完两首歌,而这些镜头,也让网友们不禁感慨:他仿佛从未离开过。
而在录制第二首歌曲时,涌现了一个特殊故意思的镜头:哥哥竟然在直播!
新智元理解到,“复活”张国荣视频的作者是来自B站的Up主QuantumLiu(知乎“天清”),目前在海内视觉殊效公司Studio51做技能。
据该Up主描述,张国荣的视频利用了自主研发的AI换脸技能,清晰度、还原度均领先于业内其他利用Deepfakes的效果,张国荣视频的分辨率也达到了1080P。
QuantumLiu见告新智元,换脸视频中的男生跟张国荣长相差距很大,“是个北方男人”,但是歌曲是“北方男人”原声,没有用张国荣的原声,也没经由处理。
这个6分钟旁边的视频,从拍摄和录音、剪辑,前后花了一个多星期旁边韶光,积累的原素材大概是20分钟,做换脸真正的运算韶光只有8个小时旁边。
“我们用的是变分自动编码器,借鉴了deepfakes的思路,但是办理了很多问题,比如高质量数据,鲁棒性,演习速率,分布式演习,还结合公司殊效业务的履历,优化了合成环节,让放回视频里的人脸领悟得更自然。比较于其他利用开源程序的爱好者,我们是一个即将商用的系统,高达1080p+的分辨率是其他人做不到的。”
QuantumLiu说,下一步,公司会利用高清的上风和在影视行业的业务,进军影视级别高清换脸,并开拓换脸开放平台,让所有人都可以玩转视频换脸。
朱茵变杨幂,分辨率低好操作实在,AI换脸并不是非常新鲜的技能了。前一阵子便有朱茵变杨幂,海王变徐锦江的干系宣布。
《射雕英雄传》中,朱茵变杨幂
海王变徐锦江
这些技能的背后,是2017年年底的Deepfakes软件带来的结果。当时Reddit用户Deepfakes,将《神奇女侠》的女主角盖尔·加朵、以及艾玛沃森、斯嘉丽等浩瀚女明星的脸跟AV女优进行了交流,制作出足以以假乱真的爱情动作片。
不过,QuantumLiu认为,目前的网上的作品都是用一个根本fakeapp软件去做的,纯娱乐,以是只能找那些很低分辨率的片段去改换(比如朱茵变杨幂)。
海内也有过银幕上的换脸。在2017年科幻笑剧《不可思异》中,当时由于演员的缘故原由,片方不得不临时换角,由大鹏代替杜汶泽所有戏份,进行了一次“殊效换脸”手术。
但这次换脸,是用通过纯手工的办法一帧帧地修正画面,耗时将近6个月,才将影片中所有的镜头都换完。在价格上,可以说是“一秒千金”。
而AI换脸和后期换脸有着根本差异。后者还须要各种建模,以及一桢一桢的修正,前者在操作上只须要供应足够多的素材让机器学习。
其余,目前以fakeApp为代表的运用存在分辨率低、效果不稳定、渲染韶光长的问题。QuantumLiu先容,用AI和殊效技能办理连续针断点再融入难题,one shot面部自适应,机器自主学习光感和画面匹配度,每一次的演习都会自动叠带,成功率,效果和渲染速率大幅提高,动态视频的切换更加完美的匹配。目前已经取得了高分辨率光感匹配的打破和叠加式渲染的打破。已经可以在几个小时内完成一整部片的更换,而且打算机学习的速率越来越快,韶光周期还在不断的缩短,品质不断提高。
Deepfakes技能详解QuantumLiu将在近期发布张国荣“复活”视频的详细实现方法,在他发布之前,我们先来理解下Deepfakes的技能内容。
Deepfakes 利用天生对抗网络(GAN),个中两个机器学习模型进行了较劲。一个ML模型在数据集上进行演习,然后创建假造的视频,而另一个模型考试测验检测假造。假造者创建假视频,直到另一个ML模型无法检测到假造。演习数据集越大,假造者越随意马虎创建可信的deepfake视频。
上图显示了一个图像(在本例中是一张脸)被输入到编码器(encoder)中。其结果是同一张脸的低维表示,有时被称为latent face。根据网络架构的不同,latent face可能根本不像人脸。当通过解码器(decoder)时,latent face被重修。自动编码器是有损的,因此重修的脸不太可能有原来的细节水平。
程序员可以完备掌握网络的形状:有多少层,每层有多少节点,以及它们如何连接。网络的真实知识存储在连接节点的边缘。每条边都有一个权重,找到使自动编码器能够像描述的那样事情的精确权重集是一个耗时的过程。
演习神经网络意味着优化其权重以达到特定的目标。在传统的自动编码器的情形下,网络的性能取决于它如何根据其潜在空间的表示重修原始图像。
演习Deepfakes须要把稳的是,如果我们单独演习两个自动编码器,它们将互不兼容。latent faces基于每个网络在其演习过程中认为故意义的特定特色。但是如果将两个自动编码器分别在不同的人脸上演习,它们的潜在空间将代表不同的特色。
使人脸交流技能成为可能的是找到一种方法来逼迫将两个潜在的人脸在相同的特色上编码。Deepfakes通过让两个网络共享相同的编码器,然后利用两个不同的解码器来办理这个问题。
在演习阶段,这两个网络须要分开处理。解码器A仅用A的人脸来演习;解码器B只用B的人脸来演习,但是所有的latent face都是由同一个编码器产生的。这意味着编码器本身必须识别两个人脸中的共同特色。由于所有的人脸都具有相似的构造,以是编码器学习“人脸”本身的观点是合理的。
天生Deepfakes当演习过程完成后,我们可以将A天生的一个latent face通报给解码器B。如下图所示,解码器B将考试测验从与A干系的信息中重构B。
如果网络已经很好地概括了人脸的构成,那么潜在空间将表示面部表情和方向。这意味着可以为B天生与A的表情和方向相同的人脸。
请看下面的动图。左边,UI艺术家Anisa Sanusi的脸被从一个视频中提取并对齐。右边,一个演习好的神经网络正在重修游戏设计师Henry Hoffman的脸,以匹配Anisa的表情。
显然,Deepfakes背后的技能并不受人脸的限定。例如,它可以用来把苹果变成猕猴桃。
主要的是,演习中利用的两个主体要有尽可能多的相似之处。这是为了确保共享编码器能够泛化易于传输的故意义的特性。虽然这项技能对人脸和水果都有效,但不太可能将人脸变成水果。
若是你的影象中也有哥哥的身影,那就分享这篇文章,让更多的人看到哥哥的视频吧!
视频地址:「链接」