Depth Pro是一种零样本单眼深度估计(monocular depth estimation)的根本模型,能为高解析度深度图加入细节锐利度,成为高品质3D图像。
利用单眼深度估计技能的好处是可以运用于任何类型图片,且可零样本演习出具有可量测的深度,因而能准确重制物件形状、场景布局,用在舆图上,则可重制具有绝对尺度值的深度图(depth map),而且不需供应相机内部参数metadata(像是焦距)给模型。
简而言之,这种AI模型预测方法不须要感测器数据即可准确预测,也可用任何单一图片来合成想要的图片。

在研究方法上,研究团队利用了2个视觉Transformer(vision transformer,ViT)模型,包括一个影像补片编码器(patch encoder)和一个影像编码器(image encoder),前者卖力将图片切成小补片,完成特徵提取、推论图片像素的深度,后者以高下文(context)讯息提升深度估计的准确性。
模型完成后的后处理方面,团队以真实和合成资料集来提升量测准确性以及物件边界跟踪(boundary tracing)能力,辅以另一个影像编码器模型供应的焦距估计,藉此优化3D图片天生结果。

在边界准确度测试上,Depth Pro超过所有现有模型,像是Marigold和PatchFusion。
该模型另一优点是速率快,在实测中可以在一台利用一颗Nvidia V100 GPU上0.3秒内天生2.25-megapixel的深度图。

连同论文,苹果并将Depth Pro模型程式码和加权值等公布在GitHub上(GitHub - apple/ml-depth-pro: Depth Pro: Sharp Monocular Metric Depth in Less Than a Second.)。

苹果公布AI模型Depth Pro不到1秒就能将2D图片转为3D图片