基于当前方法的局限性,我们提出了一种基于参考图像人脸组成编辑方法(r- FACE),不须要预定义的属性标签和手动编辑的中间表示,直接从参考图像中学习目标人脸组成形状。
为了演习所提出的模型,我们采取高下文丢失约束天生图像和参考图像之间目标人脸组成形状的相似性,同时采取风格丢失和感知丢失保持原始图像和天生图像之间肤色等风格特色的相似性。
实验结果表明,r-FACE实现了形变可控、多样化的天生结果。

邓琪瑶,中国科学院自动化研究所博士生,紧张研究兴趣是深度天生模型和人脸图像编辑。
目前以第一作者在IJCAI、IEEE TIFS上揭橥多篇论文。

一、研究背景

人脸组成编辑是人脸肖像编辑方法的一种,人脸肖像编辑是指基于一副给定的人脸图像,对人脸的属性组成或者语义进行编辑,并且天生的图像看起来真实自然。
鉴于人脸肖像编辑方法在影视制作、图片处理和交互式娱乐等方面的运用前景,该任务一贯是打算机视觉方向的研究热点。

基于参考图像的人脸组成编辑人工智能计算机视觉

近年来随着天生模型,尤其是天生对抗网络的发展,人脸肖像编辑方法取得了巨大的进步。
目前主流的人脸肖像编辑方法紧张聚焦于两类:基于标签条件的方法和基于中间表示的方法。

⑴基于标签条件的方法,通过改变二值属性标签,对预定义的人脸属性进行操纵。
但是由于该方法以二值属性标签为条件,而二值属性标签对属性的表示能力有限,因此这类方法只适用于编辑外不雅观纹理变革的一些显著属性。

比如这里的发色肤色年迈化和去除胡子等,难以实现抽象形状变革的形状的属性编辑。
比如说将鼻子变成鹰钩鼻,将眼睛变成丹凤眼等,缺少掌握高等语义人脸组成,眼睛、鼻子、嘴形状的灵巧性。

⑵为了实现对形状的可控性,最近基于中间表示的方法呈现出来,他们提出通过手动编辑中间表示,比如人脸关键点,语义分割图或者轮廓草图等,实现具有明显拓扑形变的人脸组成边界。

然而在实际运用中,这种直接将如此精确的中间表示作为形状辅导的方法,对用户而言并不友好,这种方法费时费力,并且哀求用户具备一定的绘画技能。

基于这两种方法存在的局限性,我们能否直接从参考图像中去学习人脸组成的形状信息呢?这样既可以掌握人脸组成的形状,又不依赖精确的中间表示。

如图所示空想的基于参考图像的人脸组成编辑,可以将参考图像的人脸组成转移到原始图像,给定不同的参考图像,可以实现多样化的结果。

为了实现这个目标,我们创造须要办理三个问题:

我们没有成对样本,没有ground truth,由于这个天下上不存在某一个人同时具有两种不同形状的五官的情形,因此我们就没有办法获取ground truth。
给定了参考图像,我们如何明确参考图像中该当转移,该当学习的区域呢?如何衡量或者约束天生人脸和参考人脸组成形状的相似性呢?

二、方法设计

带着这三个问题我们去设计模型框架,首先关于第一个问题,没有成对样本,没有ground truth。
既然没有成对样本,我们考虑以人脸补全模型作为我们的基本框架,直接将须要改变的区域去除,通过参考图像补全缺失落区域实现这一个目标。
因此我们的框架由一个图像补全模型和一个参考图像编码器组成。
以缺失落目标人脸组成的图像作为输入,从参考图像中学习相应的人脸组成形状信息来补全缺失落区域,实现对人脸组成的语义形状编辑。

关于第二个问题,如何确定参考图像中的目标人脸组成区域?我们提出了一个实例辅导把稳力模块,来领悟原始图像的把稳力特色和从参考图像中提取的目标人脸组成特色,进一步增强了模型的天生效果。
从原始特色中我们获取缺失落区域的attention map,原始特色与attention map相乘,得到原始图像的自把稳力特色,参考图像特色与attention map相乘,得到参考图像中相应的目标人脸组成特色。
将两者领悟后的特色作为补全区域的特色送入网络,使模型学习到参考图像的目标人脸组成信息,同时忽略参考图像中其他的无关信息。

末了一个问题,如何约束天生图像和参考图像之间目标人脸组成形状的相似性。
在最终生成的图像中,我们期望组成形状信息要与参考图像同等,而肤色的纹理信息要与原始图像同等,同时天生的图像还须要真实自然。
为此,我们用高下文丢失来约束天生图像和参考图像在补全区域的形状相似性。
采取风格丢失和感知丢失约束天生图像和原始图像在整体外不雅观上的相似性。
基于人脸补全的框架,实例辅导把稳力模块以及丢失目标,我们就实现了基于参考图像的人脸组成编辑。

三、实验结果

我们在CelebA-HQ数据集上进行验证。
为了展示提出方法的性能,我们将天生结果与几种基准方法进行了比较。
除了人脸属性编辑方法,AttGAN和ELEGANT,我们还将复制-粘贴作为一种大略的比拟方法,将Adobe photoshop图像编辑作为一种交互式的比拟方法。
如图所示,只管Adobe photoshop人脸组成编辑结果的边缘要比复制粘贴的结果要平滑很多,但是仍旧存在明显的伪影和颜色失落真问题,并且这种交互式方法须要细粒度的手工操作来改进结果的质量。

相反,AttGAN可以以端到真个办法来天生逼真的合成图像,但是自定义的二值属性标签局限于天生单一结果,因此天生图像的多样性受到了限定。
从天生结果来看,AttGAN在编辑眼睛、鼻子、嘴等具有明显形变信息的属性时,只能产生细微的变革,难以达到空想的编辑效果。
与之比较,基于参考图像的人脸属性编辑方法,ELEGANT可以学习到明显的语义属性,例如伸开眼睛或者闭上嘴,但不能学习抽象的形状信息。
比如说在编辑鼻子时天生结果没有明显的变革。
此外ELEGANT在其他属性无关的区域会产生较大的形变和伪影问题,尤其是多个人脸组成编辑的情形。

与这些方法比较,我们的方法不仅准确学习到了抽象的人脸组成形状,而且较好的担保了天生图像的真实性和自然度。

我们可以实现多模态的编辑结果。
基于参考图像的人脸组成编辑提高了天生人脸的多样性和可控性,天生人脸组成的风格可以由任意参考图像指定。
如图所示,目标职员组成,例如眼睛、嘴巴可以转换为相应参考图像的风格。
如末了一行对人脸嘴部进行编辑时,在整体形状(例如嘴角)以及局部细节(例如部分覆盖的牙齿),两个方面都可以准确的学习参考图像中的相应风格,同时他们可以自然地融入原始图像中,没有不雅观察到明显的颜色失落真和伪影问题,这也证明了所提方法的有效性。

我们可以实现稠浊编辑的结果,将来自多个参考图像的不同人脸组成领悟到原始人脸中。
如图所示,我们可以不雅观察到只有感兴趣的目标人脸组成被变换为与相应参考组成相同的风格,并自然地领悟到背景中,而图像的别的部分保持不变,这表明我们的框架可以在保持原始图像的视觉真实性的同时,合成高多样性和强可控性的人脸图像。

在定量评估中,与其他人脸肖像编辑方法一样,把FID和MS-SSIM作为度量指标。
FID用来衡量天生分布和原始分布两个分布之间的相似性,值越低越好。
而MS-SSIM则从光照、比拟度以及构造三个维度衡量,两个图像之间的相似性,值越高越好。
我们与三种方法进行了比较,由于我们的模型以人脸补全作为基本框架,与经典的人脸补全方法,GLCIC方法进行了比较。
除此之外,还与基于标签条件的人脸属性编辑方法,AttGAN以及基于参考图像的人脸属性编辑方法,ELEGANT进行了比较。

如表格所示,我们方法的FID度量指标要比其他方法要好。
但同时也不雅观察到我们方法的MS-SSIM度量指标低于AttGAN和GLCIC方法。
剖析干系缘故原由,首先MS-SSIM对亮度比拟度和构造敏感,但是对付GLCIC方法来说,它只须要补全缺失落区域,对构造或者说人脸组成形状没有任何约束。
对付AttGAN来说,它在编辑人脸组成形状变革的属性时,很难不雅观察到明显的变革。
因此这两种方法在亮度、比拟度和构造上的变革极其有限,MS-SSIM的值自然也就更高。
比较之下,我们的方法在原始和参考图像的人脸组成上施加了几何相似性约束,这会极大的改变形状或者构造,乃至影响人的身份特色,相应的在这个度量指标上的值也就更低。

在溶解实验中,我们紧张剖析了高下文丢失,风格丢失以及感知丢失对结果的影响。
从定量结果来看,每个丢失都对天生图像的质量做出了贡献。
从视觉结果来看,我们创造去除高下文丢失后,天生图像无法学习到参考图像的相应职员组成形状,这表明高下文丢失在形状约束中起了决定性浸染。
而在去除风格丢失和去除感知丢失的结果中,涌现了颜色失落真和明显的伪影问题。
比如图中黄框中牙齿区域的玄色阴影,以及鼻子区域肤色不一致征象,这些表明风格丢失和感知丢失在肤色等外不雅观纹理的同等性上起了一定的浸染。
综上,三种丢失都对终极图像的天生有所贡献。

四、总结

总的来说,该方法冲破了已有方法对人脸组成形状变革以及依赖中间表示的局限性,也为人脸肖像编辑拓宽了新的运用前景。
比如整容外科手术的可视化,一键拼凑人脸等。

论文链接:

https://www.ijcai.org/Proceedings/2020/70