上海交通大学电子工程系

作者:杨蕊

随着 GAN 网络的涌现,深度学习一次又一次的打破了人类对付人工智能的想象。
本文所提的算法就首次实现这样一种愿景:给定一张静态人物照片,持续串的骨骼枢纽关头运动序列,电脑自动天生一个运动视频,让该照片中的人物按照所给出的运动模式动起来,如舞蹈、运动等。
怎么样,是不是很像哈利波特的邪术天下中的会动的相框和报纸呢?

文章链接:https://arxiv.org/pdf/1707.01058

让照片走两步骨骼框架赞助的人物动作生成模型

简介

这项事情的创新点在于在国际上首先考试测验了基于骨骼序列的人体运动视频天生技能, 很好地办理了传统天生方法天生人体运动问题。
所提出的算法采取了双输入的模式,将参考人物静态照片和运动模式(即枢纽关头点序列)输入到 Conditional GAN 网络中,并辅以 Triplet Loss 的网络演习目标函数,以担保所天生连接体运动的的前后帧动作的同等性。
所天生的人物运动序列效果真实,并且已经在两个国际标准数据集上进行测试,得到了很好的视觉效果。

方法

图 1 算法构造

所提出的方法详细如图 1 所示。
给出一张包含某个人外表的照片 X,终极目标是天生一系列共享相同外表的照片 Y = {y1,…, yn},并且按照一定的运动模式进走运动。
因此须要将原始照片 x 和骨架的运动序列 S={S1,S2,…} 一起作为输入到所构建的深度神经网络中。
根据条件天生对抗网络 CGAN 的基本数学形式,丢失函数可以写成:

个中天生网络天生新的一帧,判别网络进行判别对抗。
为了担保天生图像的质量,加入了 L1 项丢失函数。

然而由于天生的紧张目标是视频,须要考虑前后帧的联系,以是在丢失函数中再加入一项 triplet loss,使得附近的帧天生的结果比较附近。
假设某一帧的天生结果 anchor image 为 ta,则认为与这一帧附近的帧天生结果为正样本 tp,较远的天生结果为负样本 tn,终极希望 ta 与 tp 的间隔小于 ta 与 tn 的间隔,对应的丢失函数为:

终极的丢失函数是上面三个公式的和。

图3

另一方面,由于希望将动态的骨骼信息与静态的外面信息共同输入,并且共享高层的语义信息,这里采纳了 Siamese 构造,并将这个构造称为 Siamese 天生器。
该天生用具体的网络构造如下(如图 3 所示):

实验结果

终极在两个国际著名的运动视频数据集上进行了测试:KTH dataset 和 Human3.6M dataset。
下图是所天生的视频的一些例子。

视频天生结果为:

可以看出利用该方法,最终生成的视频视觉效果非常好。
在实验中还创造,视频的前景天生的非常好,运动模式捕捉的十分到位,能够摆出骨架运动的动作,外面特色也被很好的保留了下来。
在我们的论文中还对与丢失函数的有效性进行了一系列的谈论。
参考论文 4.3 部分。

总结

学术界中对付骨架的谈论与数据集有很多,但采纳 LSTM 不能办理永劫光天生中视频模糊,畸变的问题,天生的动作也常常不能保持人体构造。
这论文中的方法首次奥妙地领悟了骨架运动和枢纽关头信息以及人物表象信息,最终生成了维妙维肖的运动视频 (即真实的人体连接体运动视频)。
相信我们都被这神奇的算法震荡了。
想要理解详情,可以参考论文:Skeleton-aided Articulated Motion Generation 刚刚被 2017 ACM Multimedia 收录,由上海交通大学电子系人工智能实验室博士生晏轶超,徐经纬完成,倪冰冰教授,杨小康教授辅导。