作者:Kara-Ali Aliev、Dmitry Ulyanov、Victor Lempitsky

机器之心编译

近日,三星的三维研究职员开拓出了一种「实时真实图片神经渲染器」的模型。
这一模型可以渲染新颖视角的繁芜场景图像。
而利用的数据是原始的点云,将其作为几何代理特色,而且不须要网格化。

渲染图像的流程如下:首先利用普通的摄像机扫描目标,利用普通的软件(如 Agisoft Metashape)天生 3D 点云,将点云和视频输着迷经网络,这样就可以渲染目标图片了。
在推断过程中只须要点云和学习到的描述器。

三星3D版AI上色算法神经收集实时衬着真实视频

算法的核心是一个 8 维的描述器(descriptor),从云中的每个点上进行学习,而不是常见的 3 维 RGB 色彩。
神经网络渲染器阐明这个描述器,并输出 RGB 图像。
研究职员在 Scannet 数据集上演习了这个网络,提升模型的泛化能力。

渲染的效果如下:

论文链接:https://arxiv.org/abs/1906.08240项目地址:https://dmitryulyanov.github.io/neural_point_based_graphics效果视频源:https://youtu.be/7s3BYGok7wU

紧张思想

有了一些 RGB 图像后,研究职员首先重修了一幅粗糙的点云图像。
他们利用的是经典的「从运动中建立构造」(SfM)和「多视角立体」(MVS)算法。

对付点云中的每一个点,我们将其和一个小的 N-维描述器(类似于 3 维的颜色描述器)联系起来。
然后,研究职员将描述器映射到虚拟相机中,利用 SfM 进行预估(这和带颜色的点云映射到相机类似),并将这些映射输入到 ConvNet 中。
ConvNet 可以学习到干系的特色,并根据视角渲染对应的场景。
在学习过程中,ConvNet 和描述器一起学习,用于减少渲染图像和实际图像之间的差异。

演习过程中,研究职员将从多场景中学习 ConvNet,并泛化到其它场景中。
在测试过程中,对付未见的 RGB(D) 图像,他们重复演习流程,但是会固定 ConvNet 的权重,只优化点云描述器。
有了描述器和演习好的网络,模型就可以从各种各样的视角渲染新场景。

图 1:给定从 RGBD 图像中天生的点云(顶部),这一算法可以为每个点学习神经描述器(伪色处理后的 3D 点云图像,在中间一行),而神经渲染网络可以将栅格化的点描述器映射成真实图像(底部)。

方法

如下是系统的简要细节。
首先我们须要理解如何在给定点云的情形下通过神经描述器和学习到的渲染网络渲染新的视图。
之后,我们还须要理解学习过程,以及学习系统对新场景的适应性。

图 2:系统总体构造的观点,它会给 3D 点云「上色」,并通过神经网络天生渲染结果。

详细而言,如上所示模型会在给定点云 P、神经描述器 D 和相机参数 C 的情形下估计方向的视角。
然后将神经描述器级联视角方向而作为伪色,从而用 z-buffer 光栅化这些点。
这种光栅化的点云随后可以通过渲染网络而得到输出结果。
通过反向传播优化渲染网络的参数与神经描述器,研究者的新模型能适应于新场景。

实验细节

研究者的模型基于盛行的 U-Net 架构,它带有 4 个降采样和升采样的模块。
研究者创造门控卷积提升了模型在稀疏输入数据上的性能,以是模型中用门控卷积代替了一样平常的卷积运算。

由于研究者利用 U-Net 作为渲染网络,并学习到了丰富的点云特色,因此他们能利用更少参数量的轻量级网络。
因此终极模型卷积层的通道数只是原始架构的 1/4,只包含 1.96M 的参数量。
这样的轻量级网络许可我们实时渲染图像,详细而言在 GeForce RTX 2080 Ti 上渲染 1296x968 的图像只须要 50ms。

图 3:「Studio」数据集上的比拟结果。
研究者展示了纹理网格、有色点云、三种神经渲染系统(包括研究者)的结果以及 ground truth 图像。
论文提出的基于点云神经描述器的系统可以成功地重现网格划分中较为困难的细节,并且与 Direct RenderNet 系统比较模糊度更小。

图 4:「LivingRoom」数据集上的比拟结果,细节展示格式与图 3 相同。

表 1:感知丢失(越低越好)、PSNR(峰值信噪比,越高越好)和 SSIM(自相似性度量,越高越好)的比拟结果。
标注有「∗」的方法已经在 hold-out 场景数据集上进行了预演习。
在大多数情形下,该方法变体的效果优于基准方法。

图 5:「Plant」数据集上的比拟结果,细节展示格式与图 3 相同。

图 6:「Shoe」数据集上的比拟结果,细节展示格式与图 3 相同。
与其他三个场景数据集不同,该场景的几何构造更适宜网格表征,并且基于网格的渲染表现相对更好。
论文提出方法的效果也优于 Direct RenderNet 基准方法。

比拟结果

不同方法比拟的定量结果拜会表 1。
所有的比拟都是在验证集上进行,个中研究者将产生的图像与 ground truth RGB 图像进行了比拟。
他们展示了不同方法在这些子集上的丢失值(把稳这种比较是有效的,由于大多数方法都在演习集上对同一丢失进行优化)。

研究者还展示了峰值信噪比(PSNR)和自相似性度量(SSIM)。
他们还在图 3 至图 6(显示点云)的验证集框中展示了不同方法的定性比拟结果。

总的来说,定量和定性比拟结果都显示出了利用点云作为几何代理的上风。
以是,网格+纹理和网格+RenderNet 的效果不如所有利用点云的方法。
但是 Shoe 场景是一个例外,该场景下的网格天生效果非常好。

但在其他所有场景下,有部分场景的网格天生(BundleFusion 或 Metashape)失落败了,导致渲染涌现重大缺点。
定性结果揭示了尤其会在体积较小物体上涌现的此类网格天生失落败情形(如图 3 中的自行车细节或图 5 中的植物叶子)。

研究者还不雅观察到,基于点云神经描述器的系统要比常日的 RenderNet 等直接渲染的方法更好。
这些直接渲染的方法可能并没有描述器。
一样平常而言,比拟直接的基线方法(显得模糊且会丢失细节),这种相机位置的单帧质量要好得多。
当然,单帧质量的提升因此增加韶光闪烁为代价的。