图像抠图是提取精确的alpha抠图的过程,该抠图将图像中的前景和背景工具分开。
该技能传统上用于电影制作和拍照行业,用于图像和视频编辑,例如背景更换、合成散景和其他视觉效果。
图像抠图假设图像是前景和背景图像的合成,因此每个像素的强度是前景和背景的线性组合。

在传统图像分割的情形下,图像以二进制办法分割,个中一个像素属于前景或背景。
然而,这种类型的分割无法处理包含风雅细节的自然场景,例如头发和毛发,这须要为前景工具的每个像素估计透明度值。

与分割蒙版不同,Alpha 遮罩常日非常精确,可以保留发束级别的头发细节和准确的前景边界。
只管最近的深度学习技能在图像抠图方面显示出了潜力,但仍旧存在许多寻衅,例如天生准确的地面真实 alpha 遮罩、改进对野外图像的泛化以及在处理高分辨率图像的移动设备上实行推理。

在 Pixel 6 中,Google通过引入一种新方法来从自拍图像中估计高分辨率和准确的 alpha 遮罩,从而显著改进了在人像模式下 拍摄的自拍照的外不雅观。
在合成景深效果时,利用 alpha 遮罩可以让Google提取更准确的拍摄工具轮廓,并具有更好的前景与背景分离。
这许可拥有各种发型的用户利用自拍相机拍摄俊秀的人像模式照片。
在这篇文章中,Google描述了Google用来实现这一改进的技能,并谈论了Google如何应对上述寻衅。

Google AI算法运用在人像自拍模式进行精准的抠图Alpha 遮罩

利用新的高质量 Alpha 遮罩比较,利用低分辨率和粗糙 Alpha 遮罩的自拍照片的人像模式效果

Portrait Matting

在设计 Portrait Matting 时,Google演习了一个由一系列编码器-解码器块组成的全卷积神经网络,以逐步估计高质量的 alpha 遮罩。
Google将输入 RGB 图像与作为输入通报给网络的粗糙 alpha 遮罩(利用低分辨率人物分割器天生)连接在一起。
新的 Portrait Matting 模型利用MobileNetV3主干和浅层(即,层数较少)解码器首先预测在低分辨率图像上运行的风雅低分辨率 alpha 遮罩。
然后Google利用浅编码器-解码器和一系列残差块来处理高分辨率图像和上一步中精髓精辟的 alpha 遮罩。
浅编码器-解码器比之前的 MobileNetV3 主干更多地依赖于较低级别的特色,专注于高分辨率构造特色来预测每个像素的终极透明度值。
通过这种办法,该模型能够细化初始前景 alpha 遮罩并准确提取非常风雅的细节,例如发丝。
所提出的神经网络架构利用Tensorflow Lite在 Pixel 6 上高效运行

该网络从彩色图像和初始粗糙 alpha 遮罩中预测出高质量的 alpha 遮罩。
Google利用 MobileNetV3 骨干网和浅层解码器首先预测风雅的低分辨率 alpha matte。
然后Google利用浅编码器-解码器和一系列残差块来进一步细化最初估计的 alpha matte。

最新的图像抠图深度学习事情依赖于手动注释的每像素 alpha 遮罩,用于将前景与背景分开,这些遮罩是利用图像编辑工具或绿屏天生的。
这个过程很乏味,并且不适宜天生大型数据集。
此外,它常日会产生不准确的 alpha 遮罩和被污染的前景图像(例如,来自背景的反射光或“绿色溢出”)。
此外,这并不能确保主体上的照明与新背景环境中的照明保持同等。

为了应对这些寻衅,Portrait Matting 利用自定义体积捕获系统Light Stage天生的 高质量数据集进行演习。
与以前的数据集比较,这更真实,由于重新照明许可前景主体的照明与背景相匹配。
此外,Google利用来自野外图像的伪地面真实 alpha 遮罩来监督模型的演习,以提高模型的泛化能力,如下所述。
这个地面实况数据天生过程是这项事情的关键组成部分之一。

地面实况数据天生 为了天生准确的地面实况数据,Light Stage 利用配备有 331 个自定义彩色 LED 灯、一组高分辨率相机和一组自定义高分辨率深度传感器的测地线球体

天生近乎真实的人物模型. 连同 Light Stage 数据,Google利用韶光复用光和先前记录的“干净板”打算准确的 alpha 遮罩。
这种技能也称为比率抠图。

该方法的事情事理是记录工具在照明背景下的剪影作为照明条件之一。
此外,Google捕获了一个干净的背景照明板。
剪影图像,除以干净的车牌图像,供应了一个真实的 alpha 遮罩。

然后,Google利用基于深度学习的抠图网络 将记录的 alpha 抠图外推到 Light Stage 中的所有相机视点,该抠图网络利用捕获的干净板作为输入。
这种方法许可Google将 alpha 遮罩打算扩展到不受约束的背景,而无需专门的韶光复用照明或干净的背景。
这种深度学习架构仅利用利用比率抠图方法天生的地面实况抠图进行演习。

从 Light Stage 的所有相机视点打算的 alpha 遮罩

利用每个主体的反射场和Google的地面真实遮罩天生系统天生的 alpha 遮罩,Google可以利用给定的HDR 照明环境重新照亮每张肖像。
Google按照alpha 稠浊方程将这些重新照射的工具合成到与目标照明相对应的背景中。
然后通过将虚拟相机定位在中央并进行光芒追踪,从 HDR 全景图天生的背景图像从相机的投影中央进入全景。
Google确保投影到全景图中的视图与其重新照明的方向相匹配。
Google利用不同焦距的虚拟相机来仿照消费级相机的不同视野。
该管道通过在一个别系中处理抠图、重新照明和合成来天生逼真的合成,然后Google用它来演习肖像抠图模型。

利用地面实况天生的 alpha 遮罩在不同背景(高分辨率 HDR 舆图)上合成图像

利用野外肖像进行演习监督

为了缩小利用 Light Stage 天生的肖像和野外肖像之间的差距,Google创建了一个管道来自动注释野外照片,天生伪地面真实 alpha 遮罩。
为此,Google利用Total Relighting中提出的 Deep Matting 模型创建了一个模型凑集,该模型可以从野外图像中计算多个高分辨率 alpha 遮罩。
Google在利用 Pixel 手机在内部拍摄的大量肖像照片数据集上运行此管道。
此外,在此过程中,Google通过对不同比例和旋转的输入图像进行推断来实行测试韶光增强,末了在所有估计的 alpha 遮罩中聚合每个像素的 alpha 值。

天生的 alpha 遮罩根据输入 RGB 图像进行视觉评估。
感知上精确的 alpha 遮罩,即遵照工具的轮廓和风雅细节(例如,头发),被添加到演习集中。
在演习期间,两个数据集都利用不同的权重进行采样。
利用提出的监督策略将模型暴露在更多种类的场景和人体姿势中,提高了它对野外照片的预测(模型泛化)。

利用深度抠图模型和测试韶光增强的凑集估计的伪地面真实 alpha 遮罩

肖像模式自拍

肖像模式效果对主体边界周围的缺点特殊敏感(见下图)。
例如,由于利用粗糙的 alpha 遮罩而导致的缺点会使焦点始终集中在工具边界或头发区域附近的背景区域上。
利用高质量的 alpha 遮罩使Google能够更准确地提取拍摄工具的轮廓并改进前景与背景的分离。

Google通过提高 Alpha 遮罩质量,减少终极渲染图像中的缺点,并改进头发区域和主体边界周围模糊背景的外不雅观,使 Pixel 6 上的前置摄像头人像模式变得更好。
此外,Google的 ML 模型利用涵盖各种肤色和发型的各种演习数据集。
您可以通过利用新的 Pixel 6 手机自拍来试用这个改进版的人像模式。

与利用新的高质量 Alpha 遮罩比较,利用粗糙 Alpha 遮罩的自拍照片的人像模式效果。