AI大尺度三维场景还原(图片来源:文献[1])
从远古期间的洞穴壁画,到信息化时期打算机技能的迅速发展,人类文明的进步史也是一部三维重修技能的发展史。这一技能的发达发展使得人类社会在影视、教诲、游戏、医疗卫生、电子商务、自动驾驶等诸多领域取得长足进步,让人们可以在虚拟天下看到现实天下的景物与色彩,人类从此有了重现天下的伟大力量。
拉斯科洞窟崖壁画,巧用岩石的凹凸变革得到立体感(图片来自网络)
到了深度学习时期,图像三维重修仍是一个重大的研究命题。
基于二维图像预测三维模型,属于打算机视觉问题,但近几年其与打算机图形学的交叉逐渐增多,界线日益模糊,多领域学者也对三维重修技能展开探索研究。
通过几何建模的办法,可以建立三维场景位置坐标和二维图像像素坐标的映射关系,从而根据像素坐标反推场景位置坐标,实现三维重修。但这种方法须要从大量不同视角拍摄图像,并进行相机标定,因此运用处景十分有限。
相机标定事理(图片来自网络)
深度学习技能可以利用先验知识,使模型得到和人类相似的猜想能力,通过不雅观察有限张二维图片,即可学习深层次特色,进而预测出三维模型,拓展了三维重修的运用处景。
随着神经渲染的问世,三维重修得到了新的发展机遇。近几年最为火热的三维重修技能当属神经辐射场(NeRF),NeRF将神经场和体渲染技能奥妙结合:以三维空间坐标点和相机位姿作为输入,经由多层感知机即可输出当前位姿下各坐标点的颜色和密度;然后利用体渲染技能,沿着每条光芒,根据密度对经由的三维坐标点按一定办法进行加权,即可打算出对应的二维图像像素值。从上面的剖析不难创造,NeRF利用多层感知机仿照辐射场,无需掩护一个大的三维查询表,即可获取空间中每个坐标点的颜色和密度,因此在人物、物体和场景重修等领域表示出巨大的发展潜力。
NeRF的事理(图片来源:文献[2])
已有研究在NeRF根本上进行了大量延伸,使其能够用于大场景三维重修,特殊是三维城市重修。未来可以对这些技能善加利用,将城市场景分解,并分块渲染,使其具备扩展到大场景的能力,进而构建高分辨率的“沉浸式”3D全景舆图,利用户查看城市场景摆脱视角的限定,实现真实场景仿照;也可在此根本上,研究向三维场景添加事物的方法,使这一技能真正具备可编辑性,并能够动态更新,实现对未知事物、事宜发展的仿真预测。
Block-NeRF重现旧金山的Alamo广场社区(图片来源:文献[3])
相信随着人们的不断探索、创新,神经渲染技能能够战胜演习时长和运用处景等方面的局限性,向更多领域延伸,造福人类。
参考文献
[1] Xiangli Y, Xu L, Pan X, et al. Citynerf: Building nerf at city scale[J]. arXiv preprint arXiv:2112.05504. 2021.
[2] Mildenhall B, Srinivasan P P, Tancik M, et al. Nerf: Representing scenes as neural radiance fields for view synthesis[J]. Communications of the ACM. 2021, 65(1): 99-106.
[3] Tancik M, Casser V, Yan X, et al. Block-nerf: Scalable large scene neural view synthesis[C]. 2022.