量子位 | "大众年夜众号 QbitAI
3D模型分割现在也解放双手了!
喷鼻香港大学和字节梦幻联动,搞出了个新方法:
不须要人工标注,只须要一次演习,就能让3D模型理解措辞并识别未标注过的种别。
比如看下面这个例子,未标注的(unannotated)黑板和显示器,3D模型经由这个方法演习之后,就能很快“抓准”目标进行划分。
再比如,给它分别输入sofa、cough这类同义词刁难一下,也是轻松拿下。
乃至连浴室(bathroom)这类抽象分类也能搞定。
这个新方法名叫PLA (Point-Language Assocation),是一种结合点云(目标表面特性的海量点凑集)和⾃然语⾔的方法。
目前,该论文已经被CVPR 2023吸收。
不过话说回来,不须要⼈⼯标注,只进行⼀次演习,同义词抽象分类也能识别……这可是重重buff叠加。
要知道一样平常方法利用的3D数据和⾃然语⾔并不能够直接从⽹上免费获取,每每须要昂贵的⼈⼯标注,而且一样平常方法也⽆法根据单词之间的语义联系识别新种别。
那PLA又是如何做到的呢?一起来看~
详细事理实在说白了,要成功实现3D模型划分,最主要的一步便是让3D数据也能理解⾃然语⾔。
专业点来说,便是要给3D点云引⼊⾃然语⾔的描述。
那怎么引入?
鉴于目前2D图像的划分已经有比较成功的方法,研究团队决定从2D图像入手。
首先,把3D点云转换为对应的2D图像,然后作为2D多模态⼤模型的输⼊,并从中提取对付图像的语⾔描述。
紧接着,利⽤图⽚和点云之间的投影关系,图⽚的措辞描述也就自然能够关联到3D点云数据了。
并且,为了兼容不同粒度的3D物体,PLA还提出了多粒度的3D点云-⾃然语⾔关联方法。
对付全体3D场景⽽⾔,PLA将场景对应所有图⽚提取的语⾔描述进⾏总结,并⽤这个总结后的语⾔关联全体3D场景。
对付每个图像视⻆对应的部分3D场景⽽⾔,PLA直接利⽤图像作为桥梁来关联对应的3D点云和语⾔。
对付更加细粒度的3D物体⽽⾔,PLA通过⽐较不同图像对应点云之间的交集和并集,以及语⾔描述部分的交集和并集,供应了⼀种更加细粒度的3D-语⾔关联⽅式。
这样一来,研究团队就能够得到成对的3D点云-⾃然语⾔,这一把直接办理了人工标注的问题。
PLA用得到的“3D点云-⾃然语⾔”对和已有的数据集监督来让3D模型理解检测和分割问题定义。
详细来说,便是利⽤对⽐学习来拉近每对3D点云-⾃然语⾔在特色空间的间隔,并推远不匹配的3D点云和⾃然语⾔描述。
讲了这么多事理,那PLA在详细分割任务中表现到底如何?
语义分割任务超越基准65%研究⼈员通过测试3D开放天下模型在未标注类别的性能作为紧张衡量标准。
先是在ScanNet和S3DIS的语义分割任务上,PLA超过以前的基线⽅法35%~65%。
在实例分割任务中,PLA也有提升,比拟之前的方法,PLA提升幅度15%~50%不等。
研究团队
这个项目的研究团队来自喷鼻香港大学的CVMI Lab和字节跳动。
CVMI Lab是喷鼻香港大学的一个人工智能实验室,实验室2020年2月1日成立。
研究范围涵盖了打算机视觉与模式识别,机器学习/深度学习,图像/视频内容剖析以及基于机器智能的工业大数据剖析。
论⽂地址:https://arxiv.org/pdf/2211.16312.pdf项⽬主⻚:https://github.com/CVMI-Lab/PLA
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态