机器之心编辑部
来自清华大学交叉信息研究院的研究者提出了「ViLa」(全称 Robotic Vision-Language Planning)算法,其能在非常繁芜的环境中掌握机器人,为机器人供应任务方案。
视频加载中...
GPT-4V 已经能帮我们设计网站代码,掌握浏览器,这些运用集中在虚拟数字天下中。如果我们把 GPT-4V 带入现实天下,让它作为掌握机器人的大脑,会有什么有趣的结果呢?
最近,来自清华大学交叉信息研究院的研究者提出「ViLa」算法,实现了让 GPT-4V 走进物理天下中,为机器人操作日常生活物品供应任务方案。
ViLa 全称是 Robotic Vision-Language Planning,它利用 GPT-4V 在视觉和措辞两个模态上做联合推理的能力,把抽象的措辞指令分解为一系列可实行的步骤。ViLa 最让人惊喜的是它展现出对物理天下中知识的理解,而这是很多之前基于大措辞模型(LLM)的机器人任务方案算法所欠缺的。
比如不才面这个视频中,研究职员让机器人拿出搁板上的漫威模型(钢铁侠)。ViLa 能理解这个场景中物体的繁芜空间位置关系,即纸杯和可乐罐挡住了钢铁侠,要拿出钢铁侠,则必须先拿走纸杯和可乐罐。
又比如不才面这个视频中,研究职员让机器人为上美术课的孩子们整理出一个桌面区域。ViLa 能根据这个场景中的剪纸,推断涌如今上课所需的工具是剪刀,把其它危险物品,比如螺丝刀和水果刀放入收纳盒中。
可以看出,ViLa 具有像人类一样的知识,能在非常繁芜的环境中掌握机器人,为机器人供应任务方案。
论文地址:https://arxiv.org/pdf/2311.17842.pdf论文主页:https://robot-vila.github.io/论文视频:https://www.youtube.com/watch?v=t8pPZ46xtuc
接下来,该研究详细先容了 ViLa 这项研究成果。
方法先容
ViLa 利用了视觉措辞大模型 (VLM) 来做机器人的任务方案。如今的 VLM 在图像和措辞两个模态上都展现出前所未有的理解和推理能力。将 VLM 运用到机器人任务中,它能基于当前环境的视觉不雅观测,结合自己丰富的天下知识进行推理。作者团队提出了 ViLa 算法,主见直策应用视觉措辞大模型(如 GPT-4V),将高等抽象指令分解为一系列低级可实行技能。
给定一条措辞指令和当前的视觉不雅观测图像,ViLa 利用 GPT-4V 通过链式思维推理来理解环境场景,随后天生多步的操持。接着,这个操持的第一步由一个基本策略来实行。末了,已经实行的步骤被添加到已完成的操持中,使得在动态环境中实现闭环方案方法。
GPT-4V 由于经由大规模互联网数据的演习,展现出了卓越的多样性和极强的泛化能力。这些特性使得它特殊善于处理论文中提出的开放天下场景。此外,作者团队创造,纵然是在零样本(Zero-Shot)学习模式下运行,由 GPT-4V 驱动的 ViLa 也能够办理多种具有寻衅性的方案问题。这显著减少了之前方法中所需的提示工程。
实验
ViLa 在现实天下和仿照环境中都展示了以零样本办法办理各种日常操作任务的能力,有效处理各种开放集指令和物体工具。作者团队通过大量实验证明了 ViLa 的上风:1. ViLa 能深刻理解视觉天下中的知识,2. ViLa 支持灵巧的多模态目标指定方法,3. ViLa 自然地支持视觉反馈和闭环掌握。
A. ViLa 能深刻理解视觉天下中的知识
措辞和图像作为不同的旗子暗记类型,各具独特性子:措辞由人类天生,富含语义,但在表达全面信息方面有限;比较之下,图像作为自然旗子暗记,包含细致的低层次特色,一张图像便能够捕捉场景的全部信息。在难以用措辞大略概括的繁芜场景下,这种差异尤为突出。通过将视觉图片直接结合到推理过程中,ViLa 可以理解视觉天下的知识知识,善于处理须要全面理解空间布局或物体属性的繁芜任务。
空间布局
用大略的措辞描述繁芜的空间布局,尤其是物体定位、位置关系和环境限定,是非常困难的。通过直接将视觉融入推理过程,ViLa 可以精确地识别物体在场景中的位置,以及它们之间的关系。
在 “拿可乐罐” 任务中,ViLa 创造可乐罐不在视线中,于是聪明地打开了冰箱并找到了它。而基线方法则会在可乐罐不在视线中的情形下给出” 拿起可乐罐 “的缺点指令。
在 “拿空盘子” 任务中,ViLa 知道在拿起蓝色盘子之前,须要先把它上面的苹果和喷鼻香蕉移走。而基线方法则忽略了盘子上的物体,直接给出” 拿起蓝色盘子 “的缺点指令。
物体属性
物体的定义涵盖多个属性,包括形状、颜色、材质、功能等。然而,自然措辞的表达能力有限,因此在全面传达这些属性方面显得笨拙。此外,物体的属性与特界说务密切干系。以上缘故原由使得过去的算法难以处理须要深入理解繁芜物体属性的场景。然而,得益于对视觉和措辞的联合推理,ViLa 对付物体在特定场景中的属性有深入的理解。
在 “准备美术课” 任务中,ViLa 认为螺丝刀和水果刀是危险物品,于是移走了它们;考虑到桌上的剪纸,ViLa 认为剪刀对美术课是必要的物品,于是留下了它。而基线方法则忽略了桌上的剪纸和美术课这一特定场景,认为剪刀也是危险物品,选择将其移走。
在 “挑选新鲜水果” 任务中,ViLa 可以精确地挑选出新鲜且完全的水果。而基线方法认为剥了一半的橘子和糜烂的喷鼻香蕉都是完全且新鲜的水果。
作者团队在 8 个干系任务上进行了充分的定量实验。如表一所示,ViLa 在理解空间布局和物体属性任务上显著超过了基线方法。
B. 多模态目标指定
ViLa 支持灵巧的多模态目标指定方法。ViLa 不仅能够利用措辞指令,还能够利用多种形式的图像作为目标,乃至利用措辞和图像的稠浊形式来定义目标。
视频中的四个任务分别表明:
ViLa 可以将真实图片作为目标。ViLa 可以将抽象图片(如小孩的画,草稿等)作为目标。ViLa 可以将措辞和图像的稠浊形式作为目标。ViLa 可以创造图片中手指指着的位置,并将其作为实际任务中的目标位置。作者团队在这四个任务上进行了定量实验。如表二所示,ViLa 在所有任务中均表现出了强大的识别多模态目标的能力。
C. 视觉反馈
ViLa 以直不雅观、自然的办法有效利用视觉反馈,在动态环境中实现鲁棒的闭环方案。
在 “堆木块” 任务中,ViLa 检测出了实行基本技能时的失落败,于是重新实行了一遍基本技能。在 “放薯片” 任务中,ViLa 意识到了实行过程中人的滋扰。在 “找猫粮” 任务中,ViLa 可以不断地打开抽屉 / 柜子来探求猫粮,直到找到。此外,ViLa 可以完成须要人机交互的任务,等待人握住可乐罐之后才松开夹爪。作者团队在这四个任务上进行了定量实验。如表三中所示,通过自然地结合视觉反馈,闭环掌握的 ViLa 的表现显著强于开环掌握。
D. 仿照环境实验
在仿照环境中,ViLa 可以按照高等措辞指令的指示,将桌子上的物体重新组织成特定的排列。
如表四中所示,ViLa 在仿照环境中的表现也显著超过了基线方法。
理解更多内容,请参考原论文。