量子位 | "大众年夜众号 QbitAI

站在门口看一眼,AI就能脑补出房间里面长什么样:

是不是有线上VR看房那味儿了?

不但是室内效果,来个远景长镜头航拍也是so easy:

只用单图相机走位AI就能脑补周围情形来自华人团队  CVPR2022

而且渲染出的图像通通都是高保真效果,仿佛是用原形机拍出来的一样。

最近一段韶光,用2D图片合成3D场景的研究火了一波又一波。

但是过去的许多研究,合成场景每每都局限在一个范围比较小的空间里。

比如此前大火的NeRF,效果便是环绕画面主体展开。

这一次的新进展,则是将视角进一步延伸,更侧重让AI预测出远间隔的画面。

比如给出一个房间门口,它就能合成穿过门、走过走廊后的场景了。

目前,该研究的干系论文已被CVPR2022吸收。

输入单张画面和相机轨迹

让AI根据一个画面,就推测出后面的内容,这个觉得是不是和让AI写文章有点类似?

实际上,研究职员这次用到的正是NLP领域常用的Transformer。

他们利用自回归Transformer的方法,通过输入单个场景图像和摄像机运动轨迹,让天生的每帧画面与运动轨迹位置逐一对应,从而合成出一个远间隔的长镜头效果。

全体过程可以分为两个阶段。

第一阶段先预演习了一个VQ-GAN,可以把输入图像映射到token上。

VQ-GAN是一个基于Transformer的图像天生模型,其最大特点便是天生的图像非常高清。

在这部分,编码器会将图像编码为离散表示,解码器将表示映射为高保真输出。

第二阶段,在将图像处理成token后,研究职员用了类似GPT的架构来做自回归。

详细演习过程中,要将输入图像和起始相机轨迹位置编码为特定模态的token,同时添加一个解耦的位置输入P.E.。

然后,token被喂给自回归Transformer来预测图像。

模型从输入的单个图像开始推理,并通过预测前后帧来不断增加输入。

研究职员创造,并非每个轨迹时候天生的帧都同样主要。
因此,他们还利用了一个局部性约束来勾引模型更专注于关键帧的输出。

这个局部性约束是通过摄像机轨迹来引入的。

基于两帧画面所对应的摄像机轨迹位置,研究职员可以定位重叠帧,并能确定下一帧在哪。

为了却合以上内容,他们利用MLP打算了一个“相机感知偏差”。

这种方法会使得在优化时更加随意马虎,而且对担保天生画面的同等性上,起到了至关主要的浸染。

实验结果

本项研究在RealEstate10K、Matterport3D数据集上进行实验。

结果显示,相较于不规定相机轨迹的模型,该方法天生图像的质量更好。

与离散相机轨迹的方法比较,该方法的效果也明显更好。

作者还对模型的把稳力情形进行了可视化剖析。

结果显示,运动轨迹位置附近贡献的把稳力更多。

在溶解实验上,结果显示该方法在Matterport3D数据集上,相机感知偏差和解耦位置的嵌入,都对提高图像质量和帧与帧之间的同等性有所帮助。

两位作者均是华人

Xuanchi Ren为喷鼻香港科技大学本科生。

他曾在微软亚研院演习过,2021年暑期与Xiaolong Wang教授有过互助。

Xiaolong Wang是加州大学圣地亚哥分校助理教授。

他博士毕业于卡内基梅隆大学机器人专业。

研究兴趣有打算机视觉、机器学习和机器人等。
特殊自我监督学习、视频理解、知识推理、强化学习和机器人技能等领域。

论文地址:https://xrenaa.github.io/look-outside-room/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态