快看,下面这个女生做出了各种生动丰富的表情,挤眼,挑眉,嘟嘴....

再来看这个男孩,一直地变革嘴型,再加上细微的眼神动作,丝毫看不出来和我们有何差异。

然而,谁能想到,他们竟不是真人!

网友纷纭称其为AGI,切实其实逼真到恐怖。

逼真到恐怖蜜斯姐挤眼挑眉五官乱飞3D化身全新算法秒杀谷歌

如此厉害的3D头像天生,完备不输小扎此前带着Quest 3 Pro做客「元宇宙」播客的逼真数字化身。

那么,这项研究竟出自哪位民间高手?

最近,来自德国慕尼黑工业大学、伦敦大学学院等研究团队提出了全新算法——NPGA,可天生高质量3D头像。

论文地址:https://arxiv.org/pdf/2405.19331

这是一种基于数据驱动的方法,从多视角的视频中创建出高保真、可控的虚拟化身。

传统上,每每会用网格3DMM去天生渲染的头像,但效果一样平常。

而NPGA的创新在于,采取了高斯点云的办法,即通过无数个点组成3D人像形状,让渲染更加高效、逼真。

其余,研究的另一个创新在于,利用了神经网络模型——「神经参数化头模型」(NPHM)来捕捉人脸细微表情的变革,由此3D数字化身可以更真实仿照人类表情。

末了,为了增强数字化身的表现力,研究职员还对潜在特色和预测动态提出了「拉普拉斯项」(Laplacian terms)。

实验评估结果显示,NPGA比起之前SOTA模型,在自我重现任务中,大约有2.6PSNR提升。

有人惊呼,这切实其实离诱骗又近了一步。

此时的网友还不忘调侃,谷歌最近放出的一个不可思议的视频。

看这奇怪的画风,再加上虚拟化身不稳定性,切实其实无法和NPGA竞争。

这是谷歌团队新提出的ChatDirector算法,按谷歌宣扬的话称,3D虚拟头像可以让在线会议更具「沉浸感」

NPGA:神经参数高斯化身

这项技能可以运用在很多场景,比如电影、游戏、AR/VR远程会议,以及小扎心心念念的元宇宙。

虽然视频的效果看起来如此逼真,但实在,从现实天下捕获图像并重修3D头像是一个极具寻衅性的课题。
既须要打算机视觉(CV)准确的识别功能,也须要打算机图形学(CG)的高保真和实时渲染性能。

近年来这两项技能的交叉,让虚拟天下的3D化身越来越逼真。
然而,有一个核心问题还没被办理——如何实现掌握性。

谷歌ChatDirector的视频之以是十分奇怪,紧张缘故原由不在画面渲染,而在面部动作和表情的掌握性差,说话时嘴动了但其他部位没有动,有「皮笑肉不笑」的觉得。

Reddit评论区有网友发问,「我什么时候能看到这个模型的开源版本,这样只须要几张照片就能天生类似的3D化身了?」

很遗憾,目前的技能该当还做不到通过几张图片就能进行3D重修。

团队利用的演习集NeRSemble是一个视频数据集,用16个机位拍摄了220多个人体头部的4700多个高分辨率、高帧率的多视图视频,包含了各种丰富头部运动、感情、表情和口语。

这个数据集同样由NPGA的作者团队揭橥于2023年,并被SIGGRAPH 2023和ACM TOG吸收。

论文地址:https://tobias-kirschstein.github.io/nersemble/

温馨提示,想点进去看示例视频的话可能须要比较强大的生理本色,里面收录的各种夸年夜表情可以称之为人类抽象行为大赏。

去年刚揭橥数据集时,重修出来的动作和表情还比较僵硬,也没有丰富的面部细节。

短短一年韶光就做到了如此逼真的效果,源于团队在方法上做出的改进。

方法概述

a) 以MonoNPHM模型为根本,在NeRSemble数据集上利用COLMAP打算的点云追踪MonoNPHM,从而实现几何精确的模型追踪。

b) 提出循环同等性目标来反转MonoNPHM的后向变形场,由此产生的前向变形场可以直接兼容基于光栅化的渲染。

c) NPGA由规范高斯点云和MLP组成,包含蒸馏过的先验网络F进行前向变形,以及网络G学习细粒度的动态细节。

d) 通过为每个基元(primitive)附加潜在特色,将变形场的输入提升到一个更高维的空间,从而可以更准确地描述每个基元的变形行为。

详细算法细节

之前的头部重修事情大多会利用3D可形变模型(3D Morphable Model),利用主身分剖析(PCA)学习人体几何图形的表示,将面部识别和表情变革的参数空间分开。

只管3DMM的参数空间足够紧凑,但论文作者认为,其底层的线性实质限定了表达空间能够实现的保真度。

论文同时表示,底层表达空间对付虚拟人的质量有至关主要的浸染,不仅影响可控性,而且决定细节清晰度的上限。
如果底层的表达不充分,很有可能在优化模型时导致过拟合。

因此,团队利用了3DMM的改进版——NPHM(Neural Parametric Head Models,神经参数化头部模型),从多视角的图像序列中追踪并提取身份识别的隐向量z_id和表情代码z_exp。

之后,就可以用一个后向变形场B,将姿势空间中的点x_p转换为规范空间中的坐标x_c:

比较遗憾的是,这项研究只专注于重修头部,屏蔽了数据集中的躯干部分,由于没有包含在NPHM提取出的z_exp的表达空间内。

基于3DGS中的为每个基元定义的场景表示,作者额外添加了高斯特色

,虽然它本身是一个静态特色,但可以为每个基元的动态行为供应语义信息,起到了一种类似于位置编码的浸染。

进行参数化表达后,论文提出的用于建模面部表情的动态模块D由2个多层感知器(MLP)组成:

- 基于粗略先验的网络F

- 超越先验知识、卖力建模剩余细节的网络G

个中,模型F的演习和利用是这篇文章的核心创新之一。
首先让F在NeRSemble数据集中20个人的图像序列上进行演习,之后会将这个网络利用在所有虚拟化身的重修中。

F的先验知识,则通过「循环同等性蒸馏」的方法,从后向变形场B中提取(本色上是B的逆元).

之后利用动态模型D,就可以得到重修的姿势空间中的高斯点云表示A_p:

基于A_p完成屏幕空间的渲染后,团队还提出利用一个CNN网络提升潜在图像的细节表达,取代了用超分辨率处理。
之后的溶解实验也证明了CNN对性能提升的有效性。

除了算法和架构的设计,团队也在优化策略上做了两处改进。

其一是对规范空间A_c与动态模型D进行基于KNN图算法的拉普拉斯平滑。

其二是自适应密度掌握(Adaptive Density Control),这是3DGS成功的核心成分。
利用启示式的方法,在静态场景下,对可能冗余的高斯点云密度进行剪枝处理。

实验评估

研究职员通过自我重现(Self-Reenactment)任务来评估NPGA算法的保真度。

自我重现会更准确地描述出看不见的表情,并在头发区域等相对静态区域中,包含更清晰的细节。

有趣的是,GHA_NPHM的性能比GHA稍差,这表明仅利用MonoNPHM表达代码,并不能立即提升性能。

相反,研究职员假设如果没有NPHM的运动作为初始化,NPHM的潜在表达分布可能会,供应比BFM的线性稠浊形状更繁芜的演习旗子暗记。

如下是,不同方法对保留序列的定性比较。

这些方法的定量结果如下。

再来看,在交叉重现(cross-reenactment)任务中,全新算法的表现又如何?

交叉重现是指,将另一个人的表情转移到虚拟化身上。

如下图所示,所有的方法都成功将身份和表达信息分裂出来,从而实现了有效的交叉重现。

不过,NPGA的化身保留了更多驱动表情的大部分细节。

为了证明算法的现实天下适用性,图6显示了,研究职员利用MonoNPHM的单目RGB,来追踪高保真化身动画。

溶解研究

在末了的溶解实验中,为了验证NPGA的几个主要组成部分,研究职员通过利用三个受试者进行了溶解实验。
溶解的定量和定性结果分别见表2和图5。

如果不利用全高斯特色(Vanilla),3D头像就无法呈现出非常风雅的表情,包括眼睛和下齿等繁芜区域。

不过,在添加全高斯特色(p.G.F.)后,重修效果明显更清晰,但在极度表情下随意马虎产生伪影。

当研究职员添加了拉普拉斯正则化和屏幕空间CNN,终极办理这一伪影问题。

此外,实验还证明了,默认的点云密集化策略,会抑制细节的重修,因此利用自适应密度掌握(ADC)的策略非常必要。

下表解释了,利用正则化策略可以显著缩小演习序列(NVS)和测试序列(自我重现任务)之间的泛化差距。

局限性

研究职员表示,NPGA创建的虚拟化身的可控性、重修质量,从根本上讲,会受到底层3DMM表达空间的限定。

因此,包括颈部、躯干、舌头、眼珠旋转这些区域,无法用NPHM的表情代码来完备阐明。

由此,算法无法可靠地进行动画处理,乃至可能由于过拟合而带来伪影。

目前可能的办理方案是,将底层3DMM扩展,供应对人类状态更详细的描述。

此外,NPGA作为一种数据驱动的头像创建方法,在一定程度上受限于可用的数据。