达摩院又是如何走出从优化到运用的这一质变的过程?
蜕变传统抠图是交互式抠图,哀求输入trimap作为约束,即已包含有较准备的语义信息,如下图2(b)所示,所需估计的是trimap中的灰色区域。对付无交互的人像抠图,则是直接从输入图像中不带任何约束地估计精确的语义信息及精准的alpha细节。提升模型效果的一个重大成分即大量精准标注的演习数据,如果演习数据不充分或分布不均,极随意马虎导致估计的语义信息不准从而影响末了抠图结果的精度,如下图2(d)所示。据此,达摩院提出了一种在不降落演习效果条件下最大限度降落数据标注本钱的方法,该方法利用了获取本钱较低的粗标注数据,以及部分精度较高的标注数据,实验结果表明该模型的可以更好的估计语义信息,同时对发丝细节的处理精度也很好,如下图2(e)所示。
图2:(a)输入图;(b)trimap(前景、背景、不愿定区域);(c)Deep Image Matting结果;(d)不该用粗标注数据结果;(e)同时利用粗标注数据和精确标注数据结果;(f)真实值。
破茧为了在精确抠图中利用非精确标注的数据,达摩院提出了如下的网络框架。提出的模型框架分为三部分:粗mask估计网络(MPN)、质量统一化网络(QUN),以及精确alpha matte估计网络(MRN)。该部分的设计理念为:繁芜问题拆解,先粗分割(MPN)再风雅化分割(MRN)。学术界有大量易获取的粗分割数据,可以利用起来。但在实操过程中创造,粗分割数据和精分割数据不一致导致预期GAP很大,故而又设计了质量统一化网络(QUN)。MPN的用场是估计粗语义信息(粗mask),利用粗标注数据和精标注数据一起演习。QUN是质量统一化网络,用以规范粗mask质量,QUN可以统一MPN输出的粗mask质量。MRN网络输入原图和经由QUN规范化后的粗mask,估计精确的alpha matte,利用精确标注数据演习。
图3:算法框架图
算法框架包括三个部分:MPN,粗mask估计网络;QUN,mask质量规范化网络;MRN,精确alpha matte估计网络实验结果 Baseline的比拟:比拟方法包括传统的matting方法以及最新基于神经网络的方法。演习数据中包括一半精标注数据,一半粗标注数据。比拟方法(除deeplab)由于算法限定只能利用精标注数据,因而只利用了精标注数据演习。而达摩院的方法分别用只利用精标注数据以及同时利用精标注数据和粗标注数据进行了实验。如下图4结果表明,达摩院的方法在利用了粗标注数据之后,对繁芜case的语义信息估计的要更准确,同时细节信息也估计的更好。
图4: 实验结果比拟图
在真实图片结果的测试结果如下:
图5:真实运用处景下人像抠图的效果
达摩院的方法还可以运用到数据的风雅化中,如果给定了粗mask,输入达摩院的QUN+MRN网络,可以直接得到风雅化之后的数据,如下图6所示,达摩院分别对公开数据集coco和pascal中的人像数据做了风雅化。其余,达摩院也将达摩院的方法运用到其他类目的分割当中去,如商品分割、头像分割等,也取得了不错的效果,如图7所示。
图6: 粗标注数据用达摩院网络进行refine后的结果
图7: 其他场景的分割效果
化蝶
当一个技能在精度上有了质的提升,并且办理了本钱问题,那么它就达到了运用的门槛,达摩院将上述方法拓展到了商品、动物、汽车等行业做主体分割,并将技能落地成运用遍布市场,单阿里巴巴集团内已覆盖9大BU(优酷、淘宝、天猫、CBU/ICBU、阿里康健、Lazada、视频云、钉钉、支付宝)9大BU,鲁班场景的商品抠图转化率高达80%+。
阿里云视觉AI开拓者创意运用赛向社会各界免费开放所有视觉AI技能接口,如人像分割、商品分割、头像抠图等。开拓者可以任意利用达摩院的技能打磨自己的产品,或者将自己的产品在大赛中展出,作为主理方,阿里云将会为精良的作品对接创业资源和孵化环境,更有总计近百万的奖金和奖品等你来拿。
体验地址:https://vision.aliyun.com/experience
大赛平台:https://developer.aliyun.com/ai/activity/viapi?spm=a211p3.14921014.J_2252694630.5.514a46a07ZMiqM