韩国游戏巨子研究头像AI卡通化,终于实现了翻译的“信达雅”。
文|光谱
年轻一代人当中,很多都是 ACG(动画、漫画和游戏)去世忠。在社交网络上,常常会看到动漫角色的头像,由于对付这部分用户来说,共同的爱好是他们鉴别彼此、匆匆进互换的一种有效办法。
然而有两个小问题:首先,热门动漫作品就那么几部,撞头像的事件常常发生。以及,甭管账户的主人是什么性别,头像一水都是可爱女生,韶光长了毫无辨识度了。每次上网看帖,就像围不雅观一帮动漫角色在相互留言点赞……
我们都知道,最近几年基于神经网络的 AI 发展的很快,个中有一种技能叫造作风迁移 (style transfer),大略来说便是让图片 A 得到图片 B 的风格,但仍旧具有明显的 A 的特色。
有了这项技能之后,ACG爱好者也可以让自己的头像具有动漫风格了。只是效果仍旧不是很令人满意,看起来像是用画笔和颜色对人脸照片描边而已:
这种风格迁移实在有点违背初衷:很多人用动漫头像是为了可爱,可是终极输出看起来一点都不可爱。
然而 ACG 爱好者是不会停滞脚步的!
一群韩国的 AI 研究者最近发布了一篇论文,展示了他们在图片到图片翻译 (image-to-image translation) 上取得的主要进展。
他们实现的效果,看起来更像是找了一位漫画家,对着原始照片负责地再创作,效果超过了所有现存的头像卡通化技能:
用红框标出的分别为原图 (a) 和输出结果 (e),输出的头像不但风格更加靠近我们常常在动漫当中看到的形象,和原图的可识别度也很高。
在非监督学习的方法和天生对抗网络(简称 GAN)的架构根本上,研究者加入了全新的把稳力模块,并发明了一种名为“自适应层-实例归一化” (AdaLIN) 的 归一化机制,开拓出一种全新的神经网络。
这一研究被命名为 U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation [1].
正是由于研究者设计的全新的把稳力和归一化机制,我们可以从输出结果中看到,这个神经网络对付不同特色进行了不同的处理。
该放大的特色,比如眼睛,被放大了;该缩小的特色,比如鼻子、嘴巴,也得到了缩小;至于其它特色,比如发型、发色、肤色,乃至包括面部阴影,也有相称准确的还原。
下图分别展示了这个天生对抗网络的天生器和判别器的架构:
研究者指出,之前的图像风格迁移结果,之以是看起来像描边,是必须把原图的线条背景映射到输出结果上;而他们开拓的把稳力和归一化机制,能够对原图和目标风格图进行把稳力绘制,然后勾引模型对不同的区域和特色进行不同的重构。
也便是说,这个新的模型能够理解,动漫头像必须有大眼睛、更具线条感的头发,以及更鲜亮的发色和瞳色。它会按照这些(从输入的参考头像中取得的)原则去进行翻译。
研究者在论文中提到,他们的这个模型在大略的风格迁移根本上,已经上了一个新的台阶,有了变形的能力 (object transfiguration)。
他们发明的自适应层-实例归一机制 AdaLIN,还有一些其它上风,比如可调节性,研究者可以对层 (Layer) 和实例 (Instance) 分别进行调度,从而在输出中实现不同程度的形状和材质变革。
下图中可以看到,从横排第三到第六,是对归一机制进行调度所得到的不同结果:
在笔墨翻译中,输出的结果要符合工具措辞的语法、利用习气等等。在图片翻译 (image-to-image translation) 中实在也是一样。你可以这样理解:之前的风格迁移,都只是在做“字面翻译”,而 U-GAT-IT 在“信达雅”上实现了打破。
该技能的另一厉害之处,是可以对险些任何类型的照片(动物、宠物脸部、风景)进行准确的图片翻译,而且不须要对神经网络的参数进行任何调度:
论文的第一作者为 Junho Kim:
值得提及的是,包括 Kim 在内的三名作者均来自人称游戏界“高丽双雄”之一的韩国游戏公司 NCsoft;另一作者来自波音韩国工程科技中央。
NCsoft 开拓的老牌网游《天国》(Lineage 1 & 2) 于1998年上线,已经在包括中国在内的多国连续运营21年,还有《永恒之塔》等几款有名游戏。但少有人知的是,实际上 NCsoft 也是韩国在人工智能研发方面最激进的公司之一。
据《韩国时报宣布》,NCsoft 在 2011年就已设立了专门研发团队,目前运营着人工智能中央、自然措辞处理中央两个独立的研究机构。前者卖力游戏AI、语音识别和打算机视觉,后者主攻措辞理解和知识系统。
NCsoft 人工智能中央、自然措辞处理中央卖力人在该公司举办的活动上
两个中央的卖力人直接向公司创始人兼 CEO 金泽辰直接管理,员工总数约为160人,今年内将增员到300人旁边。
NCsoft 投入深度学习的紧张目的,是在游戏和做事中引入干系技能。目前,该公司正在利用 AI 检测外挂,以及基于玩家的游戏习气和兴趣数据进行做事定制化。
而本文所提到的这项技能,将能够极大改进玩家的游戏体验——或许往后不用捏脸,只要上传头像,就能天生准确的卡通化游戏角色了。
波音去年刚刚在韩国成立工程和科技中央,紧张研究方向包括自动化、人工智能、航空电子学和数据剖析等等。该机构的技能员工紧张来自韩国本土的有名高校和科技公司等。
目前,这项技能还没有一个可用的 demo,不过如果你对 TensorFlow 比较熟习,可以在 GitHub 上浏览代码[2]或阅读原文并按照利用解释,在自己的电脑上跑起来~
-end-
[1] U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation https://arxiv.org/pdf/1907.10830.pdf
[2] https://github.com/taki0112/UGATIT