机器之心编辑部

1 分钟的舞蹈动画,美术手工制作或需 20 多天,用 AIxPose 赞助制作仅需 3 天,全体流程缩短了 80% 以上。

AIGC 又出新邪术了!

不用动画师手 K、惯捕或光捕,只需供应一段视频,这个 AI 动捕软件就能自动输出动作。
仅需短短几分钟,虚拟人的动画制作就搞定了。

动画制作效率提升80%这个AI软件一键实现高精度视频动捕

不仅是四肢大框架动作,连手部的细节都能精准捕捉。

除了单视角视频,还能支持多个视角的视频,比较其他只支持单目识别的动捕软件,该软件能供应更高的动捕质量。

同时,该软件还支持对识别的人体关键点、平滑度、脚步细节等进行编辑修正。
从普通玩家的兴趣体验,到硬核玩家的专业需求,它都可知足。

这便是网易互娱 AI Lab 深根多年、结合专业美术反馈不断迭代优化、低调开拓的 AIxPose 视频动捕软件。
据悉,该软件已经处理了超过数十个小时的视频资源,并运用于游戏剧情动画、热门舞蹈动画等资源的制作流程。
经实际项目验证,1 分钟的舞蹈动画,美术手工制作或需 20 多天,用 AIxPose 赞助制作仅需 3 天,全体流程缩短了 80% 以上。

近日,网易互娱 AI Lab 基于开拓该软件的履历,并结合在动捕领域的干系研究事情进行了整理,其所撰写的论文《Learning Analytical Posterior Probability for Human Mesh Recovery》被打算机视觉顶会 CVPR 2023 吸收。

主页地址:https://netease-gameai.github.io/ProPose/

论文地址:https://netease-gameai.github.io/ProPose/static/assets/CVPR2023_ProPose.pdf

该论文创新性地提出了一种基于后验概率的视频动捕技能 ProPose,能够在单张图像、多传感器领悟平分歧设定下实现准确的三维人体姿态估计。
技能精度比利用先验的基准概率方法高了 19%,且在公开数据集 3DPW、Human3.6M 和 AGORA 上均超越了过去的方法。
此外,对付多传感器领悟任务,该技能也能达到比基准模型更高的精度,且无需由于引入新传感器而修正神经网络的骨干部分。

技能背景

本研究的任务是从 RGB 图像中预测人体姿态和形状(human mesh recovery, hmr),现有的方法可以归纳为两类:直接法和间接法。
直接法采取神经网络端到端地回归人体枢纽关头的旋转表示(如轴角、旋转矩阵、6D 向量等),而间接法先预测一些中间表示(如三维关键点、分割等),然后通过这些中间表示得到枢纽关头旋转。

然而,这两类方法都存在着一些问题。
对付直接法而言,由于这类方法须要网络直接学习旋转这类抽象表示,与学习关键点、分割比较,学习旋转相对困难,因此网络输出的结果有时候很难和图像对齐,且无法完成一些大幅度的动作,如下图 (a) 第一行的右脚无法完备向后伸展。
与之比较,间接法一样平常能产生更高的精度,但是这类方法的表现很大程度上依赖于中间表示的准确性,当中间表示由于噪声产生偏差时,随意马虎让终极的旋转涌现相称明显的缺点,如下图 (b) 第二行的左手所示。

除了前述这些确定性的方法,还有一些方法通过学习某些概率分布来建模人体姿态的不愿定性,从而将噪声纳入考虑,提高系统鲁棒性。
目前紧张的概率建模办法包括多元高斯分布、标准化流、神经网络隐式建模等,但是这些非 SO (3) 上的概率分布无法真实地反响枢纽关头旋转的不愿定性。
比如在不愿定性较大时,高斯分布在 SO (3) 上的局部线性假设不成立。
近期的一篇事情直接用网络学习了 matrix Fisher 分布的参数,虽然这是一种 SO (3) 上的分布,但该方法的学习办法和直接法类似,收敛表现无法和现有的间接法比较。

为了同时兼顾高准确性和鲁棒性,提升概率方法的性能,ProPose 推导了枢纽关头旋转的解析后验概率,不仅能够受益于不同不雅观测变量带来的高精度,也能衡量不愿定性,尽可能减弱噪声对算法的影响。
如下图所示,对付输入的图片,ProPose 可以通过输出的概率分布一定程度上度量该枢纽关头旋转在各个方向的不愿定性,如右手沿动手臂轴的旋转、左手臂高下摆动的朝向、左小腿远近的程度等。

技能实现

人体建模

本研究对人体姿态进行概率建模,目标是求枢纽关头旋转 R 在一些不雅观测变量条件下(如骨骼朝向 d 等)的后验概率 p (R|d,⋯)。

详细而言,由于人体的枢纽关头旋转位于 SO (3) 上,而子枢纽关头相对付父枢纽关头的单位骨骼朝向位于 S^2 上,因此可基于这两种流形上的概率分布进行剖析。

首先,SO (3) 上的 matrix Fisher 分布 MF (⋅) 可作为枢纽关头旋转 R 的先验分布,如下式所示,F∈R^(3×3) 是该分布的参数,c (F) 是一个归一化常量,tr 表示矩阵的迹。

如下式所示,F 可以通过 SVD 分解直接求解均值 M 和一个表征分布聚拢程度的聚拢项 K。
个中,Δ=diag (1,1,|UV|) 是一个对角正交矩阵,用于担保 M 的行列式为 1,从而能落在分外正交群中。

其次,考虑到骨骼的朝向能通过枢纽关头旋转打算得到,因此可将枢纽关头旋转 R 看作隐变量,骨骼朝向 d 作为不雅观测变量,给定 R 的条件下,S^2 上的单位朝向 d 服从 von Mises-Fisher 分布:

个中,κ∈R 和 d∈S^2 分别是该分布的聚拢项和均值,l 是参考姿态下(如 T-pose)的单位骨骼朝向,理论上知足 Rl=d,即通过枢纽关头旋转将参考骨骼朝向转到当前骨骼朝向。

利用贝叶斯理论,给定先验分布 p (R) 和似然函数 p (d|R),可以打算以骨骼朝向为条件的枢纽关头旋转的后验概率 p (R|d) 的解析形式:

由此可得到结论:后验概率 p (R|d) 同样服从 matrix Fisher 分布,且其参数从 F 更新为 F^'=F+κdl^T。

上述后验概率只考虑了人体骨骼朝向作为不雅观丈量,类似地,还可以推广到其它的方向不雅观丈量 d_i 或旋转不雅观丈量 D_j(可由别的传感器产生,如 IMUs 等),得到如下一样平常形式的解析后验概率:

个中 κ_i 和 K_j 是聚拢项。
g (⋅) 是一个 IK 形式的映射,能够将方向不雅观丈量转换到旋转估计,可以采取最大略的形式如 g (d_i )=dl^T。
Z_1 和 Z_3 分别表示方向不雅观丈量和旋转不雅观丈量的凑集。

特性

该部分进一步阐述后验概率分布相较于先验概率分布有更高的聚拢程度。

前述部分先容了人体枢纽关头旋转后验概率的解析形式,该概率由一个新的参数 F' 表征。
可以从另一个角度理解后验参数 F^',即 F^' 是与 F 相同的均值项 M 和一个新的聚拢项 K^' 的乘积:

个中 M^T dl^T=ll^T 是一个秩 1 实对称矩阵,而 K 也是一个实对称矩阵,即后验的聚拢项 K' 同样是实对称矩阵。
根据矩阵剖析中关于实对称矩阵的交错定理,可以得到 K' 的特色值 λ_i' 和 K 的特色值 λ_i 具有如下不等式关系:

考虑到聚拢项的特色值等价于分布参数的奇异值,而分布参数的奇异值能反响该分布的置信度,因此可以得到结论,当似然项非零时,后验估计比先验估计更集中,可以快速收敛到似然函数偏好的那个 mode 上,从而能更随意马虎地被学习。

除了先验概率方法,另一类紧张的基准方法是利用逆运动学(IK)直接通过骨骼朝向打算旋转,下面这张图可以直不雅观地展示后验概率方法和确定性 IK 方法之间的比拟。

上图以人体肘部枢纽关头为例。
实的三维坐标轴表示真实值,透明三维坐标轴表示估计值。
第一行表示确定性 IK 方法,这类方法背后的建模办法是一个表示骨骼朝向的向量,当骨骼朝向估计准确时,剩余的一个自由度(twist)便能缩小到一个圆上(图中球上的虚线圈);当骨骼朝向估计不准确时,则会使得所有可能的估计都与真实值偏离。
第二行表示本研究的后验概率模型,由多个不同类型的模型领悟而成,球面上的赤色区域表示某个旋转的概率,即便骨骼朝向估计有偏差,这种办法也有可能规复到真实值,由于骨骼朝向的噪声能够被先验或其它不雅观丈量所尽可能缓解。

网络框架图和丢失函数

基于前述理论和推导,可以直接构建出下图所示的框架图。
利用多分支网络从单张图片中估计先验分布参数 F、三维关键点 J(从中计算出骨骼朝向 d)、形状参数 β。
通过贝叶斯法则打算得到后验概率,终极可从后验分布中得到姿态估计,从而输出人体 mesh。

丢失函数的选择比较直接,为如下四个约束的加权和,个中 L_J 表示关键点约束,L_β 表示形状参数约束,L_θ 表示矩阵形式的姿态参数约束,L_s 表示对分布进行采样后的姿态约束。
关于对分布的约束,这里并未直接采取 MAP 是考虑了归一化参数的数值稳定性问题。
关于采样策略,类似之前的事情,将 matrix Fisher 分布转为等价的四元数形式的 Bingham 分布,然后通过谢绝采样得到,个中谢绝采样的建议分布采取 angular central Gaussian 分布。

实验结果

实验部分,本研究在公开数据集 Human3.6M、3DPW、AGORA、TotalCapture 上和过去方法进行了定量比拟。
可以看到,本研究的方法超越了过去的一众方法。
个中右下表中末了灰色的两行是同期事情,这里为了榜单完全性也列了出来。

下图展示了和现有 SOTA 方法 HybrIK、PARE、CLIFF 的定性比拟,可以看到对一些遮挡的情形,ProPose 可以得到更好的效果。

下表展示了一系列溶解实验,紧张展示 ProPose 的准确性和鲁棒性。
基准方法包括不该用三维关键点、不该用先验、测试时不该用先验、骨干网络不同位置特色的选择等,下面左表充分验证了所提出的后验概率分布有着更高的精度。
下面右表则展示了后验方法和确定性 IK 方法对噪声的鲁棒性比较,可以看到后验方法能够更大程度地抵御噪声的滋扰。