机器之心编辑部

仅需一个任务描述,即可一键分割所有图片!

Segment Anything Model (SAM) 的提出在图像分割领域引起了巨大的关注,其卓越的泛化性能引发了广泛的兴趣。
然而,只管如此,SAM 仍旧面临一个无法回避的问题:为了使 SAM 能够准确地分割出目标物体的位置,每张图片都须要手动供应一个独特的视觉提示
如下图所示,纵然点击的是同一物体(图 (b)-(d)),眇小位置变革都会导致分割结果的显著差异。
这是由于视觉提示缺少语义信息,纵然提示在想要分割的目标物体上,仍旧可能引发歧义。
框提示和涂鸦提示(图 (e)(f))虽然供应了更详细的位置信息,但由于机器和人类对目标分割物的理解存在偏差,效果常常与期望有所出入。

目前的一些方法,如 SEEM 和 AV-SAM,通过供应更多模态的输入信息来勾引模型更好地理解要分割的物体是什么。
然而,只管输入信息变得更加详细和多样化,但在实际场景中,每个无标注样本仍旧须要一个独特的提示来作为辅导,这是一种不切实际的需求。
空想情形下,作者希望奉告机器当前的无标注数据都是采集自于什么任务,然后期望机器能够批量地按照作者的哀求对这些同一任务下的样本进行分割。
然而,当前的 SAM 模型及其变体受到必须为每幅图手动供应提示这一哀求的限定,因此很难实现这一点。

拜别一一标注一个提示实现批量图片瓜分高效又准确

来自伦敦大学玛丽女王学院的研究者们提出了一种无需演习的分割方法 GenSAM ,能够在只供应一个任务通用的文本提示的条件下,将任务下的所有无标注样本进行有效地分割。

论文链接:https://arxiv.org/pdf/2312.07374.pdf项目链接:https://lwpyh.github.io/GenSAM/代码链接:https://github.com/jyLin8100/GenSAM/

GenSAM 的流程图如下所示:

方法先容

为理解决这一问题,作者提出了 Generalizable SAM(GenSAM)模型,旨在摆脱像 SAM 这类提示分割方法对样本特定提示的依赖。
详细而言,作者提出了一个跨模态思维链(Cross-modal Chains of Thought Prompting,CCTP)的观点,将一个任务通用的文本提示映射到该任务下的所有图片上,天生个性化的感兴趣物体和其背景的共识热力争,从而得到可靠的视觉提示来勾引分割。
此外,为了实现测试时自适应,作者进一步提出了一个渐进掩膜天生(Progressive Mask Generation,PMG)框架,通过迭代地将天生的热力争重新加权到原图上,勾引模型对可能的目标区域进行从粗到细的聚焦。
值得把稳的是,GenSAM 无需演习,所有的优化都是在实时推理时实现的。

实验

作者在伪装样本分割任务上的三个不同数据集上进行了实验,并分别与点监督和涂鸦 (scribble) 监督下进行演习后的方法进行了比较。
GenSAM 不仅比基线方法比较取得了长足的进步,还再更好的监督旗子暗记和完备没有演习的情形下,取得了比弱监督方法类似乃至更好的性能。

作者还进一步进行了可视化实验,剖析不同 iter 下的分割结果,首先是在 SAM 处理不佳的伪装样本分割任务上进行了评估:

此外,为了验证 GenSAM 的泛化性,还在阴影分割和透明物体分割上进行了可视化实验,均取得了出色的性能。

总结

总的来说,GenSAM 的提出使得像 SAM 这类提示分割方法能够摆脱对样本特定提示的依赖,这一能力为 SAM 的实际运用迈出了主要的一步。