抠图过的画面具有很多范例的“硬伤”:人像比例失落调、表情僵硬,人物与背景结合生硬,背景虚化等,令人打眼一看上去就以为十分违和,严重影响了用户的不雅观看体验。

阿里巴巴资深算法专家任海兵在接管 InfoQ 采访时表示,现在很多影视剧抠图技能“太假”、殊效效果不好,一方面由于拍摄履历不敷,无法和抠图技能很好的合营,另一方面可能是由于后期制作用度不敷,导致后期没有人工仔细校验修正。

实在,抠图是影视剧后期利用非常普遍的一种技能,例如在好莱坞的电影拍摄过程中殊效制作基本都会利用绿幕拍摄,然后通过后期抠图合成技能。

不过这项技能大多数时候都用不上。
制片人何静曾表示,这类技能利用的比例一样平常掌握在 5% 至 10%,多用在无法正常拍摄或者无法实现以及不能呈现最佳效果的情形下。

抠图剧一毛特效不忍直视以假乱真才是 AI 视频抠图的真水平

但现在由于制作本钱,演员演技、档期冲突等成分,大面积抠图的影视剧越来越多,且质量堪忧,给不雅观众一种抠图技能很不靠谱的觉得,这侵害了技能本身,也让技能污名化。

不能否认的是,随着抠图技能更加成熟以及影视剧、视频制作的须要,智能抠图将是大势所驱。
如何让抠图更加逼真,效果更加自然,AI 将在个中发挥越来越关键的浸染。
现在已有很多修图软件运用上了 AI,随着视频 AI 算法的发展,视频智能抠图也开始新兴起来。

此外,长期来看,智能抠图也将是节省本钱、提高效率和精度的最优选择。

相对付手工 PS 来说,智能抠图上风突出,一方面,可以大幅度提高抠图效率。
以图像抠图为例,一个繁芜的人物手工抠图须要手工几分钟韶光;而利用交互式智能抠图算法,几秒钟就可以完成。
智能抠图还可以达到“毛发毕现”的效果,凸显毛发部分的分割精度,这是人手工险些无法完成的。

传统的图像抠图算法都是基于非深度学习的算法,例如 KNN matting,Closed-Form matting,Bayesian matting 等。
AI 抠图是利用深度学习算法从图像和视频中把用户感兴趣的物体扣出来,可以把抠出来的物体放到新的背景上,合成新的图片和视频。

任海兵表示,目前盛行的 AI 抠图算法都是基于深度学习的算法,相对付传统算法,AI 抠图算法有两个优点:一是抠图精度更高,二是可以在 GPU 上并行打算,速率更快。

阿里文娱智能视频抠图技能

智能抠图最直接用到的 AI 技能是图像抠图算法(image matting)。
但为了得到更好的抠图效果,目前很多抠图技能都采取多种算法结合的办理方案,还包括显著性物体检测、图像语义分割和实例分割等算法。

比较图像抠图,视频抠图算法最大难点是时序同等性。
“对付视频抠图结果,一帧帧当作果都很不错,但是连在一起,边缘地区就会有抖动,抠图时序的同等性不足好”,任海兵说。

视频智能抠图技能便是在图像抠图技能根本之上,增加视频物体分割等算法来担保视频抠图结果的时序同等性,达到“抖动小,更平滑”的分割效果。

抠图后,视频中的人神色、动作非常生动、自然,人物的头发丝纤细可见,视频主体人物和背景的衔接流畅,能够准确区分,全体画面很完全,傻傻分不清哪一个是抠图后的,足以以假乱真了。
如果比拟上面那些粗糙的抠图画面,效果切实其实“吊打”了。

值得一提的是,该视频的前景和背景颜色比较靠近,在这样的情形下,要担保抠图工具的完全性和局部细节的精确度,所需的技能难度较高,尤其对付头发丝、衣服褶皱等抠图风雅程度高的部分。

任海兵表示,视频人物抠图,从人物分割来看,算法模型须要学习人物的先验知识,在前景 / 背景颜色比较靠近和繁芜纹理的情形下,人的先验知识可以起到主要的浸染,能担保抠图工具的完全性。

抠图工具的整体性紧张依赖图像高层语义特色,局部细节的精确性侧重图像低层局部特色。
实际系统中二阶段的抠图方法比 E2E 的抠图算法能够达到更高的精度。
二阶段的抠图方法中,第一阶段是硬分割阶段;第二阶段是软分割,首先要担保硬分割结果中工具的整体性和边缘的准确性,然后在准确性的根本上利用软算法达到“毛发毕现”的效果。
因此,在第一阶段中就须要确保工具的整体性和边缘的准确性。

“为了既担保工具的整体性,又能得到精确的局部细节,从算法角度,高层特色和低层特色须要很好的领悟在一起 ",任海兵先容。

目前很多图像分割网络,例如 HRnet 在这方面都处理得比较好。
任海兵团队参考 HRnet、Deeplab V3+ 等语义分割网络提出了对应办理方案,该方案目前在最主要的语义分割数据集 Cityscape Test 数据集上达到了 84.3% 的精确率。

智能视频抠图商用落地

目前,阿里文娱所采取的视频抠图办理方案均是针对文娱业务的运用处景定制化研发,其目的是从影视综剧中抠出人物区域,进行视频内容的二次天生和创作。

“我们会根据人物抠图的特点,设计一些模块,例如人体分割的自动评估模块等”,任海兵表示,“我们采取的抠图原始数据基本上都是来自优酷的影视综剧,这是我们业务的场景,我们尤其看重古装人物的分割,由于古装人物繁芜的头饰、衣饰、武器等都是分割算法的难点”。
目前,阿里已经建立了业界最大的视频人物分割数据集,并将在今年阿里文娱的 MEIDA AI 算法大赛“高精度视频人物分割赛道”中部分发布。

阿里文娱紧张采取 AI 与人工结合的抠图模式,利用 AI 算法为人工赋能,大规模提高人工效能。
例如在优酷商业化广告项目中,全自动的视频人物抠图后接入人工审核和交互式分割链路,也便是说,如果全自动的视频人物抠图的结果不合格,后续将由人工进行修补。

从算法的角度讲,人物抠图和物体抠图并没有实质的差异,算法事理、网络框架基本上都是一样的,只是数据不相同。
由于视频中人是不雅观众最感兴趣的工具,以是阿里文娱更侧重于影视综剧中的人像抠图。
针对领域,任海兵团队提出了视频 / 图像人物无监督和交互式抠图算法。
目前,阿里的算法已经具备商用落地的能力,正逐步运用于多个项目。

最近几年,智能抠图运用开始在工业领域逐步落地,在商品海报制作、视频弹幕等场景利用,上述场景属于大略场景,图像背景比较大略或者对分割精度哀求不高,紧张采取人工 +AI 办法抠图。

而影视综剧视频制作中给人物换背景等繁芜场景,则哀求更高的抠图精度和更高的平滑性。
这对硬分割和软分割技能都提出了很高的哀求。

为了达到软分割高度的平滑性,视频软分割 (video matting) 算法是非常主要的。
“但在 video matting 领域,最近几年学术界没有明显的进展。
但我相信,随着工业界需求越来越多,越来越多的研究职员会投身 video matting 领域,推动这个领域的发展”,任海兵表示。

他坦言,目前特殊智能的抠图算法,特殊是视频抠图算法,还处于实验室研究阶段。
算法特殊繁芜,须要大量的打算资源,且算法本身也不是特殊成熟,在通用场景和繁芜场景下达不到用户的预期,因此只在某些特定的领域内针对详细场景进行优化,达到小范围的商用。
市情上,商用软件中的抠图算法,须要处理更加通用的场景,加之受打算资源限定,无法利用特殊繁芜的算法,还达不到特殊的智能。

不过,最近两年,深度学习在像素级分类任务上取得了较大的进展。
智能抠图干系的算法,例如图像物体分割、视频物体分割、Image Matting 等也取得了较大的进步。
视频抠图在实现高度智能、大规模商用方面的潜力值得期待。

采访高朋先容

任海兵,打算机视觉专题专家阿里巴巴资深算法专家任海兵,从事视频理解算法研究。
拥有 20 多年打算机视觉从业经历。
在加入阿里之前,任海兵在三星中国技能院事情 了 11 年,先后担当打算机视觉和医疗图像算法团队卖力人;在英特尔中国研究院事情了 4 年,从事机器人视觉感知研究事情。

关注我并转发此篇文章,私信我“领取资料”,即可免费得到InfoQ代价4999元迷你书!