重新排列物体(比如整理书架上的书本,移动餐桌上的餐具,或者推一堆咖啡豆)是机器臂一项基本技能,它可以让机器人与我们多样化、非构造化的天下进行身体互动。

只管对付人们来说很随意马虎,但是对付具身机器学习系统(embodied machine learning systems)来说,完成这些任务仍旧是一个开放的研究寻衅,由于它须要高水平和低水平兼备的感知推理。

例如,当堆叠一堆书时,你可以考虑书该当堆放在哪里、以何种顺序,同时确保书的边缘彼此对齐形成一堆整洁的书。

在机器学习的许多运用领域中,模型构造中的大略差异可以表现出大不相同的泛化特性。
因此,人们可能会问,是否有某些深层网络构造支持重新排列问题的大略底层元素。

懒人福音谷歌AI整理房间收盘子叠罗汉样样拿手

例如,卷积构造在打算机视觉中很常见,由于它具有平移不变性,纵然图像发生移动也会产生相同的相应,而Transformer构造在措辞处理中很常见,由于它们利用自把稳力来捕捉长间隔的高下文干系性。

在机器人技能运用中,一个常见的构造是在学习模型中利用以工具为中央的表示,例如姿势、关键点或工具描述符( object descriptors ),但是这些表示须要额外的演习数据(常日是手动注释) ,并且很难描述繁芜的场景,例如变形物(例如 playdough)、液体(蜂蜜)或成堆的东西(剁洋葱)。

最近,谷歌AI的研究职员提出了 Transporter Network,这是一个用于学习基于视觉的重排任务的大略模型构造。

Transporter Network 利用一种新颖的方法来实现3D 空间理解,避免了依赖于以工具为中央的表示,使得它们对基于视觉的操作更加通用,但是比基准的端到真个替代方法更有效率。

因此,它适宜快速和实用的演习真正的机器人。
同时研究职员还发布了一个与 Ravens 一起的 Transporter Nets 的开源实现,这是基于十项视觉的操作任务的新的仿照基准套件。

Transporter Network:为机器操作重新排列视觉天下

Transporter Networks 背后的关键思想是:人们可以将重新排列问题表述为学习如何移动一块三维空间。

3D 空间并不依赖于工具的明确定义(这一定会在捕捉所有边缘情形方面碰着困难) ,而是对可以作为被重新排列的原子单元(atomic units)的更广泛的定义,它可以广泛地包含一个工具、一个工具的一部分或多个工具等。

Transporter Nets 通过捕捉3D视觉天下的深层表征来利用这种构造,然后将其部分覆盖在自身上,以想象各种可能的3D空间重排。
然后,它选择在演习过程中看到的最匹配的重新排列办法(如来自专家演示的结果) ,并利用它们来参数化机器人的动作。

这个办法许可 Transporter Nets 泛化到看不见的工具,并使它们能够更好地利用数据中的几何对称性,以便它们能够外推到新的场景配置当中去。
Transporter Nets 适用于机器人操作的各种各样的重新排列任务,扩展了早期的模型,比如基于启迪(affordance-based)的操作和 TossingBot,它们只关注抓取和抛掷。

Ravens Benchmark

为了在同等的环境中评估 Transporter Nets 的性能,以便与基线和溶解进行公正的比较,谷歌研究职员开拓了 Ravens,这是一个由10个基于视觉的重排任务组成的基准测试套件。

Ravens 供应了一个内置随机oracle的 Gym API 来评估模拟学习方法的样本效率。
Ravens 避免了不能转化为实际设置的假设: 不雅观察数据只包含 RGB-D 图像和摄像机参数; 动作是终端实行器姿态(与逆运动学转换到枢纽关头位置)。

对这10个任务的实验表明,Transporter Nets 比其他端到端方法的效率赶过数量级的差异,并且只需100个演示就可以在许多任务上得到90% 以上的成功率,而基线方法很难用同样数量的数据进行泛化。

在实践中,这使得网络足够的演示成为在真实机器人上演习这些模型的一个更可行的选择。

Highlights

这里给出10个例子演示,Transporter Nets 可以学习挑选和放置任务,如堆叠盘子;多模态任务,如对齐任何一个角落的一个盒子上的桌面标记,或建立一个金字塔的块。

通过利用闭环的视觉反馈,Transporter Nets 有能力学习各种多步的连续任务,并进行适度的演示: 例如汉诺塔的移动磁盘,或组装在演习期间没有看到的新物体的成套工具等。

这些任务具有相称的“长视野”,这意味着为理解决任务,模型必须精确地排列许多单个选择的顺序,同时策略也方向于学习紧急规复行为(emergent recovery behaviors)。

关于这些结果的一个令人惊异的事情是,除了感知之外,模型还开始学习类似于高等操持的行为。
例如,要办理汉诺塔问题,模型必须选择磁盘移动的下一步,这须要基于当前可见磁盘及其位置识别状态。
这些行为表明,对付所有内置的不变性,模型可以将其能力集中于学习操作中更高等的模式。

Transporter Nets 也可以学习利用任何由两个终端实行器定义的运动原语的任务,例如将成堆的小物体推入一个目标设置中,或者重新配置一个可变形的绳子来连接一个三边形的两个端点。
这表明刚性空间位移可以作为非刚性位移的有用条件。

结论

Transporter Nets 为基于视觉的操作学习供应了一种很有出息的方法,但也存在一定的局限性。
例如,它们可能会受到噪声3D数据的影响,其次,只演示了稀疏的基于方向点的掌握与运动原语,目前还不清楚如何超越空间行动空间的力量或基于扭矩的动作来扩展它们。

但是总的来说,目前研究职员对这个方向的事情感到愉快,希望它能为谈论过的运用程序之外的扩展供应灵感。

详细讲解可以不雅观看视频:

https://www.youtube.com/watch?v=8afHfReCfPo&feature=emb_logo

参考链接:

https://ai.googleblog.com/