在CVPR 2021 上揭橥的“ Omnimatte:关联工具及其在视频中的效果”中,Google描述了一种新的遮罩天生方法,该方法利用分层神经渲染将视频分成称为Omnimatte的层,个中不仅包括主题,还包括所有在场景中与它们干系的效果。范例的最前辈的分割模型为场景中的主体(例如人和狗)提取蒙版,而此处提出的方法可以隔离和提取与主体干系的其他细节,例如投射在地面。
最前辈的分割网络(例如,MaskRCNN)采取输入视频(左)并为人和动物(中)天生合理的面具,但错过了它们的干系效果。Google的方法产生的遮罩不仅包括主体,还包括他们的阴影(右图;人和狗的单独通道被可视化为蓝色和绿色)。
同样与分割蒙版不同的是,omnimattes 可以捕捉部分透明的柔和效果,例如反射、飞溅或轮胎烟雾。与传统遮罩一样,omnimattes 是RGBA 图像,可以利用广泛可用的图像或视频编辑工具进行处理,并且可以在利用传统遮罩的任何地方利用,例如,将文本插入烟迹下方的视频中。
视频的分层分解为了天生全能图,Google将输入视频分成一组层:一个层用于每个移动的工具,一个附加层用于静止的背景工具。不才面的示例中,人的一层,狗的一层,背景的一层。当利用传统的alpha 稠浊合并在一起时,这些层会再现输入视频。
除了再现视频外,分解还必须在每一层捕捉精确的效果。例如,如果人的影子涌如今狗的图层中,合并后的图层仍旧会重现输入的视频,但是在人和狗之间插入额外的元素会产生明显的缺点。寻衅在于找到一个分解,个中每个主题的层仅捕获该主题的效果,从而产生真正的全能。
Google的办理方案是运用Google之前开拓的分层神经渲染方法来演习卷积神经网络(CNN) 以将主体的分割掩码和背景噪声图像映射到一个全图。由于其构造,CNN 自然方向于学习图像效果之间的干系性,并且效果之间的干系性越强,CNN 就越随意马虎学习。例如,在上面的视频中,人与其影子以及狗与其影子之间的空间关系在他们从右向左行走时保持相似。在关系之间的变革更大(因此,干系性较弱)的人与狗的影子,或者狗和人的影子. CNN 首先学习更强的干系性,从而导致精确的分解。
下面详细展示了omnimatte系统。在预处理中,用户选择主题并为每个主题指定一个层。利用现成的分割网络(例如MaskRCNN)提取每个工具的分割掩码,并利用标准相机稳定工具找到相对付背景的相机变换。随机噪声图像在背景参考帧中定义,并利用相机变换进行采样以天生每帧噪声图像。噪声图像供应随机但随韶光持续跟踪背景的图像特色,为 CNN 学习重修背景颜色供应自然输入。
渲染 CNN 将分割掩码和每帧噪声图像作为输入,并天生 RGB 彩色图像和 alpha 映射,它们捕获每一层的透明度。这些输出利用的是传统的 alpha 稠浊来合并以天生输出帧。CNN 从头开始??演习,通过查找掩码中未捕获的效果(例如,阴影、反射或烟雾)并将其与给定的前景层干系联来重修输入帧,并确保主体的 alpha 大致包括分割掩码。为了确保前景层只捕获前景元素而没有固定背景,还对前景 alpha 运用了稀疏丢失。
为每个视频演习一个新的渲染网络。由于网络只须要重修单个输入视频,因此除了分离每个主题的效果外,它还能够捕获风雅构造和快速运动,如下所示。在步辇儿示例中,omnimatte 包括投在公园长椅板条上的阴影。在网球示例中,捕捉到了眇小的阴影乃至网球。在足球示例中,球员和球的阴影被分解为适当的层(当球员的脚被球挡住时会涌现轻微的缺点)。
这个基本模型已经运行良好,但可以通过利用额外的缓冲区(如光流或纹理坐标)增加 CNN 的输入来改进结果。
运用程序
一旦天生了omnimattes,如何利用它们?如上所示,Google可以删除工具,只需从组合中删除它们的图层即可。Google还可以通过在合成中重复工具层来复制工具。不才面的例子中,视频被“展开”玉成景图,马被多次复制以产生频闪的照片效果。请把稳,马投在地面和障碍物上的阴影被精确捕获。
一个更奇妙但功能更强大的运用是重定时主题。韶光的操纵在电影中被广泛利用,但常日须要为每个主题和受控的拍摄环境单独拍摄。分解为omnimattes 使日常视频的重新定时效果成为可能,只需利用后处理,只需独立变动每一层的播放速率即可。由于Omnimattes 是标准的RGBA 图像,因此可以利用传统的视频编辑软件来完成这种重新定时编辑。
下面的视频被分解成三层,每个孩子一层。孩子们最初的、不同步的跳跃通过大略地调度他们的图层的播放速率来对齐,为水中的飞溅和反射产生逼真的重新定时。
在原始视频(左)中,每个孩子在不同的韶光跳跃。编辑完(右),大家一起跳。
主要的是要考虑到任何处理图像的新技能都该当负任务地开拓和运用,由于它可能被滥用来产生虚假或误导性信息。Google的技能是根据Google的AI 原则开拓的,只许可重新排列视频中已经存在的内容,但纵然是大略的重新排列也可以显著改变视频的效果,如这些示例所示。研究职员该当意识到这些风险。
有许多令人愉快的方向可以提高omnimattes 的质量。在实用层面上,该系统目前仅支持可以建模为全景图的背景,个中相机的位置是固定的。当相机位置移动时,全景模型无法准确捕捉全体背景,一些背景元素可能会凌乱前景层(有时在上图中可见)。处理完备通用的相机运动,例如穿过房间或走在街上,须要 3D 背景模型。在存在移动物体和效果的情形下重修 3D 场景仍旧是一项艰巨的研究寻衅,但最近取得了令人鼓舞的进展。
在理论层面上,CNNs 学习干系性的能力是强大的,但仍旧有些神秘,并且并不总是导致预期的层分解。虽然Google的系统许可在自动结果不完美时进行手动编辑,但更好的办理方案是充分理解 CNN 学习图像干系性的能力和局限性。这种理解可能会导致改进去噪、修复和除层分解之外的许多其他视频编辑运用程序。