机器之心编辑部
美图影像实验室(MT Lab)利用 StyleGAN 技能落地了多个头发生成项目并在美图秀秀及外洋产品 AirBush 上线刘海天生、发际线调度与稀疏区域补发等功能。妈妈再也不用担心我脱发了。
当逐渐后移的发际线和日益稀疏的刘海成为焦虑的源头, 为了知足这届用户对付浓密秀发的神往,多年深耕人工智能领域的美图公司技能大脑——美图影像实验室(MT Lab)基于在深度学习领域积累的技能上风,落地了多个头发生成项目并实现了高清真实的头发纹理天生,目前已率先在美图旗下核心产品美图秀秀及外洋产品 AirBrush 上线刘海天生、发际线调度与稀疏区域补发等功能,知足用户对发型的多样化需求。
个中,刘海生成功能可以基于自定义的天生区域,天生不同样式的刘海(如图 1.1-1.3)。
图 1.1:刘海天生(左:原图,右:全刘海天生效果图)
图 1.2:刘海天生(左:原图,右:全刘海天生效果图)
图 1.3:多款刘海天生效果图
发际线调度功能在保持原有发际线样式的情形下,可以对发际线的不同高度进行调度(如图 2.1-2.2):
图 2.1:发际线调度前后比拟图
图 2.2:发际线调度比拟图
头发生成任务面临的寻衅
头发编辑作为一样平常的天生任务,在落地实践过程中仍面临以下几个亟待打破的关键技能瓶颈:
首先是天生数据的获取问题。以刘海天生任务为例,在天生出特定格局的刘海时,一个人有无刘海的数据是最为空想的配对数据,但这种类型的真实数据获取的可能性极低。与此同时,如果采取针对性网络特定格局刘海数据,以形成特定属性非配对数据集的办法,那么获取高质量且多样式的数据就须要耗费较高的本钱,基本不具备可操作性;其次是高清图像细节的天生问题。由于头发部位拥有繁芜的纹理细节,通过 CNN 难以天生真实且达到空想状态的发丝。个中,在有配对数据的情形下,虽然可以通过设计类似 Pixel2PixelHD[1]、U2-Net[2] 等网络进行监督学习,但目前通过该办法天生的图像清晰度仍旧非常有限;在非配对数据情形下,一样平常通过类似 HiSD[3]、StarGAN[4]、CycleGAN[5] 的办法进行属性转换天生,利用该办法天生的图片不仅清晰度不佳,还存在目标效果天生不稳定、天生效果不真实等问题。针对上述情形,MT Lab 基于弘大的数据资源与突出的模型设计能力,借助 StyleGAN[6] 办理了头发生成任务所面临的配对数据天生与高清图像细节两大核心问题。StyleGAN 作为当前天生领域的紧张方向—GAN(天生式对抗网络)在图像天生运用中的紧张代表,是一种基于风格输入的无监督高清图像天生模型。StyleGAN 能够基于 7 万张 10241024 的高清人脸图像演习数据 FFHQ,通过风雅的网络设计与演习技巧天生清晰逼真的图像效果。此外,StyleGAN 还能基于风格输入的办法拥有属性编辑的能力,通过隐变量的编辑,实现图像语意内容的修正。
图 3:基于 StyleGAN 天生的图片
美图基于 StyleGAN 的头发编辑方案
1. 配对数据天生
StyleGAN 天生配对数据最为直接的办法便是在 w + 空间直接进行干系属性的隐向量编辑,天生干系属性,个中隐向量编辑方法包括 GanSpace[7]、InterFaceGAN[8] 及 StyleSpace[9] 等等。但是,这种图像天生办法常日隐含着属性向量不解耦的情形,即在天生目标属性的同时每每伴随其他属性(背景和人脸信息等)产生变革。
因此,MT Lab 结合 StyleGAN Projector[6]、PULSE[10] 及 Mask-Guided Discovery[11] 等迭代重修办法来办理天生头发配对数据的问题。该方案的紧张思路是通过简单编辑原始图片,得到一张粗简的目标属性参考图像,将其与原始图像都作为参考图像,再通过 StyleGAN 进行迭代重修。
以为头发染浅色发色为例,须要先对原始图片中的头发区域染上统一的浅色色块,经由降采样得到粗略编辑简图作为目标属性参考图像,在 StyleGAN 的迭代重修过程中,天生图片在高分辨率尺度下与原始图片进行相似性监督,以担保头发区域以外的原始信息不发生改变。
另一方面,天生图片通过降采样与目标属性参考图像进行监督,以担保天生的浅色发色区域与原始图片的头发区域同等,二者迭代在监督平衡下天生期望中的图像,同时也得到了一个人有无浅色头发的配对数据(完全流程参考下图 4)。
值得强调的是,在该方案实行过程中既要担保天生图片的目标属性与参考图像同等,也要担保天生图像在目标属性区域外与原始图片信息保持同等;还须要担保天生图像的隐向量处于 StyleGAN 的隐向量分布中,才能够确保终极的天生图像是高清图像。
图 4 :染浅色头发 StyleGAN 迭代重修示意图
此外,基于该方案的思路,在头发生成领域还能获取到发际线调度的配对数据(如下图 5)、刘海天生的配对数据(如下图 6)以及头发蓬松的配对数据(如下图 7)。
图 5:发际线配对数据
图 6:刘海配对数据
图 7:头发蓬松配对数据
2. 配对数据增益
基于迭代重修,还能够得到配对数据所对应的 StyleGAN 隐向量,通过隐向量插值的办法还能实现数据增益,进而得到足足数目标配对数据。
以发际线调度的配对数据为例,如下图 8 所示,(a)和(g)是一组配对数据,(c)和(i)是一组配对数据,在每一组配对数据间,可以通过插值得到发际线不同程度调度的配对数据。如(d)和(f)分别是(a)和(g)、(c)和(i)之间的插值。
同样地,两组配对数据间也可以通过隐向量插值得到更多配对数据。如(b)和(h)分别是(a)和(c)、(g)和(i)通过插值得到的配对数据。此外,通过插值得到的配对数据也能够天生新的配对数据,如(e)是(b)和(h)通过差值得到的配对数据,基于此可以知足对空想的发际线调度配对数据的需求。
图 8:配对数据增益
3. image-to-image 天生
基于 StyleGan 的迭代重修得到配对数据后,就可以通过 pixel2piexlHD 模型进行有监督的学习演习,这种 image-to-image 的办法相对稳定且具有稳健性,但天生图像的清晰度还无法达到空想的效果,因此选择通过在 image-to-image 模型上采取 StyleGAN 的预演习模型来帮助实现天生细节的提升。传统的 StyleGAN 实现 image-to-image 的办法是通过 encoder 网络得到输入图的图像隐向量,然后直接编辑隐向量,末了实现目标属性图像天生,但由这种办法天生的图像与原图像比对每每相似度较低,无法知足基于原图像进行编辑的哀求。
因此 MT Lab 对这种隐向量编辑的办法进行了改进,一方面直接将原图像 encode 到目标属性的隐向量,省去进行中间隐向量编辑的步骤;另一方面将 encoder 网络的特色与 StyleGAN 网络的特色进行领悟,终极通过领悟后的特色天生目标属性图像,以最大限度担保天生图像与原图像的相似度,整体网络构造与 GLEAN[12] 模型非常相似,该办法兼顾了图像高清细节天生与原图相似度还原两个紧张问题,由此也完成了高清且具有真实细节纹理的头发生玉成流程,详细如下图 9:
图 9:头发生成网络构造
基于 StyleGAN 编辑天生方案的拓展
基于 StyleGAN 编辑天生方案能够在降落天生任务方案设计难度的同时,提高天生任务的研发效率,实现天生效果的大幅度提升,同时也具有很高的扩展性。个中,结合 StyleGAN 天生空想头发配对数据的办法极大地降落了图像编辑任务的难度,比如将该方案关注的属性拓展到头发以外,就能够得到更多属性的配对数据,例如五官改换的配对数据(如下图 10),借此可以考试测验对任何人脸属性编辑任务进行落地实践。
此外,借助 StyleGAN 预演习模型实现 image-to-image 的办法能够担保天生图像的清晰度,因此还可以将其推广到如图像修复、图像去噪、图像超分辨率等等更为一样平常的天生任务中。
图 10:五官改换的配对数据:原图(左),参考图(中),结果图(右)
目前, MT Lab 已在图像天生领域取得新的技能打破,实现了高清人像天生并达到风雅化掌握天生。在落地头发生成以外,MT Lab 不仅实现了牙齿整形、眼皮天生、妆容迁移等人脸属性编辑功能,还供应了 AI 换脸、变老、变小孩、改换性别、天生笑颜等等风靡社交网络的新鲜玩法,一系列酷炫玩法为用户带来了更有趣、更优质的利用体验,也展现了其背后强大的技能支持与研发投入。
未来,深度学习仍将是 MT Lab 重点关注的研究领域之一,也将持续深入对前沿技能的研究,不断深化行业技能创新与打破。
参考文献:
[1] Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao,Jan Kautz, and Bryan Catanzaro. High-resolution image syn-thesis and semantic manipulation with conditional gans. In CVPR, 2018.
[2] Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R Zaiane, and MartinJagersand. U2-net: Going deeper with nested u-structure for salient object detection. Pattern Recognition, 2020.
[3] Xinyang Li, Shengchuan Zhang, Jie Hu, Liujuan Cao, Xiaopeng Hong, Xudong Mao, Feiyue Huang, Yongjian Wu, Rongrong Ji. Image-to-image Translation via Hierarchical Style Disentanglement. InProc. In CVPR, 2021.
[4] Choi, Y., Choi, M., Kim, M., Ha, J.W., Kim, S., Choo, J.: Stargan: Unified genera-tive adversarial networks for multi-domain image-to-image translation. In CVPR, 2018.
[5] Choi, Y., Choi, M., Kim, M., Ha, J.W., Kim, S., Choo, J.: Stargan: Unified genera-tive adversarial networks for multi-domain image-to-image translation. In CVPR, 2018.
[6] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila. Analyzing and improvingthe image quality of StyleGAN. InProc. In CVPR, 2020.
[7] Erik H ̈ark ̈onen, Aaron Hertzmann, Jaakko Lehtinen, andSylvain Paris. Ganspace: Discovering interpretable gancontrols. In NIPS, 2020.
[8] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. Inter-preting the latent space of gans for semantic face editing. In CVPR, 2020.
[9] Zongze Wu, Dani Lischinski, and Eli Shecht-man. StyleSpace analysis: Disentangled controlsfor StyleGAN image generation. In arXiv, 2020.
[10] Sachit Menon, Alexandru Damian, Shijia Hu, Nikhil Ravi,and Cynthia Rudin. Pulse: Self-supervised photo upsam-pling via latent space exploration of generative models. In CVPR, 2020.
[11] Mengyu Yang, David Rokeby, Xavier Snelgrove. Mask-Guided Discovery of Semantic Manifolds in Generative Models. In NIPS Workshop, 2020.
[12] K. C. Chan, X. Wang, X. Xu, J. Gu, and C. C. Loy, Glean: Generative latent bank for large-factor image super-resolution, In CVPR, 2021.