来源丨AI公园

编辑丨极市平台

手工分割(左)特色的图像,新的弱监督系统产生的分割

语义分割是将数字图像中的每一个像素自动标注为多个种别(人、猫、飞机、表等)中的一个,运用于基于内容的图像检索、医学图像和目标识别等。

实操教程|用不需要手工标注瓜分的演习数据来进行图像瓜分

对付标注者来说,在工具周围画一个边界框要比完备分割同一幅图像随意马虎得多。

基于机器学习的语义分割系统常日是在目标边界已经精心手工标注过的图像上演习,这是一个耗时的操作。
另一方面,目标检测系统可以对图像进行演习,在这些图像中,目标被称为边界框的矩形框框起来。
对付人类标注者来说,手动分割一幅图像均匀花费的韶光是标记边界框的35倍。
在ECCV上揭橥的一篇论文中,我们描述了一个新的系统,我们称之为Box2Seg,它只利用边界框演习数据来学习分割图像,这是弱监督学习的一个例子。
在实验中,我们的系统在一个(mIoU)的度量上比以前的弱监督系统提高了2%,该度量度量了系统分割图像和手动分割图像之间的同等性。
我们的系统的性能也可以与对一样平常图像数据进行预演习,然后对完备分割的数据进行演习比较。
此外,当我们利用弱监督方法演习系统,然后对完备分割的数据进行微调时,它比对一样平常图像数据进行预演习的系统性能提高了16%。
这表明,纵然分割演习数据可用,利用我们的弱监督方法进行预处理演习仍旧有上风。

有噪声的标签

我们的方法是将边界框视为噪声标签。
我们把框里的每个像素当作我们要探求的边界的工具的一部分,然而,个中一些像素被缺点地标记了。
框外的所有像素都被精确标记为背景像素。
在演习过程中,我们系统的输入通过三个卷积神经网络:一个目标分割网络和两个赞助网络。
在运行过程中,我们丢弃了赞助网络,这样它们就不会增加已支配系统的繁芜性。

研究职员演习模型的架构。
由GrabCut分割算法(M)供应的包围框本身(B)和粗分割的位置有助于监督目标分割网络(θy)和两个赞助网络(θa和θb)的演习。

个中一个赞助网络对图像中的像素进行两两比较,试图学习区分派景和前景的一样平常方法。
直不雅观地说,它是在边界框内探求与框外精确标记的背景像素相似的像素,并在框内探求彼此不同的像素簇。
我们称这个网络为“嵌入”网络,由于它可以学习像素的向量表示,即嵌入,这些像素只捕捉那些对区分派景和前景有用的属性。
我们利用一种叫做GrabCut的标准分割算法供应的相对粗糙的分割来预先演习嵌入网络。
在演习过程中,嵌入网络的输出为目标分割网络供应监督旗子暗记,也便是说,我们用来评价嵌入网络性能的标准之一是其输出与嵌入网络的输出是否同等。

由研究者的嵌入网络确定的“亲和性”的例子。
较亮的区域表示像素,表明网络得出的结论是有一些共同之处。

另一个赞助网络是特定标签把稳力网络。
它学会识别具有相同标签的边框内像素之间频繁涌现的视觉属性。
可以将其视为一个目标检测器,其输出不是一个目标标签,而是一个突出显示特定工具类的像素簇特色的图像映射。

从左到右:手动分割图像,边界框与GrabCut算法供应的粗分割相结合,边界框与研究职员的标签特定把稳网络输出相结合。
在第三对图像中,光谱的赤色端表示常常涌如今带有特定标签的边界框内的图像特色。
在演习过程中,目标分割网络应特殊把稳这些特色。

在利用标准基准数据集的实验中,我们创造,仅利用边界框演习数据,Box2Seg比利用完备分割演习数据演习的其他12个别系表现得更好。
当利用Box2Seg演习的网络在完备分段的数据上进行微调时,性能改进乃至更显著。
这表明,当没有完备分割的演习数据时,乃至在完备分割的演习数据可用时,工具分割的弱监督演习可能是有用的。

—END—

英文原文:https://www.amazon.science/blog/learning-to-segment-images-without-manually-segmented-training-data