人形机器人被视为研究人工智能技能的最佳载体,而人工智能则为人形机器人供应了强大的核心驱动力。当前,人形机器人与人工智能的领悟已成为行业研究热点。
Mentee Robotics开拓的人形机器人MenteeBot,集成了代码、人工智能、运动和工程技能的端到端平台,并嵌入了人工智能大脑(LLM),实现了与天下的动态交互。它不仅能够完成从口头命令到繁芜任务的完全端到端循环,包括导航、运动、场景理解、工具检测和定位、抓取以及自然措辞理解,同时还具有出色的智能和自主性,堪称人工智能与人形机器人结合的典范。
那么,MenteeBot是如何实现人工智能与人形机器人完美领悟的呢?近日,Mentee Robotics的首席实行官,曾任Facebook AI Research领导人物的Lior Wolf教授,对外揭橥了一场公开演讲,就人形机器人搭载AI的重大寻衅、MenteeBot如何战胜仿照与现实之间的差距、Mentee Robotics采取的学习改动策略、导航策略、感知策略以及构建实用人形机器人所需的关键要素等内容进行了详细先容。接下来,一起来深入理解吧!
以下内容根据Lior Wolf教授演讲实录整理:
▍人形机器人搭载AI的重大寻衅:缩小仿照与现实差距
回顾过去20至24年间的人工智能发展进程,其进展之迅猛,远超预期。如今,Transformer模型已成为行业共识,广泛运用于各领域。尤其在打算机视觉、自然措辞处理和语音识别等核心寻衅上,人工智能近几年都取得了显著打破。
然而,在这股AI技能年夜水中,通用机器人,尤其是人形机器人的发展,仍面临重重寻衅。
这紧张由于,只管人工智能善于从数据中学习,但机器人的成功还需依赖履历学习。遗憾的是,为机器人积累履历既缓慢又不屈安。仿照器演习虽为一解,但仿照环境与现实环境的差异仍是实现机器人实用化的重大障碍。为此,Mentee Robotics两年前应运而生,致力于占领这一难题。
Lior Wolf教授指出,当前AI领域正处于多次革命性变革的交汇点。
个中,大型措辞模型的涌现尤为引人瞩目。这些模型不仅授予机器人与人类自然互换的能力,还让它们具备自我反思的性能,从而更高效地实行任务。例如,当机器人考试测验抓取物体失落败时,它能意识到须要考试测验其他方法。鉴于无法为所有边缘情形编写程序,大型措辞模型成为编写实际运行机器人脚本的优选办法。
第二场革命是在仿照器中进行演习,这使得网络无限量数据并针对任何任务进行精准演习成为可能。然而,将仿照演习成果运用于现实天下仍需超过仿照与现实的鸿沟。据悉,已有诸多机器人技能成功超过了这一寻衅。
第三场革命发生在打算机视觉领域,尤其是根本模型的打破。以Monti为例,其利用最新模型实行开放词汇查询和物体检测,不再受限于固定物体列表,极大拓展了打算机视觉的运用范围。
同时,语义3D模型的崛起也是不容忽略的革命。像Nerf和Gaussian Splatting等模型,通过结合语义信息,使我们能够以前所未有的精确度建模3D天下,并支持平方和搜索,为机器人感知和理解环境供应了强大工具。
末了,打算革命也对机器人技能产生了深远影响。多板打算机、NVIDIA Jetson和Orange GPU等打算平台的进步,使得机器人能够运行各种繁芜的人工智能模型,从而以更加自然的办法与天下互动。这一系列革命性进展正共同推动着机器人技能迈向新的高度。
演讲中,Lior Wolf教授特殊强调了Mentee Robotics在人形机器人技能方面的独特上风。作为一家以AI为核心的公司,Mentee Robotics自主研发了所有AI模型,并将这些模型集成在一起,以创建能在现实天下中实行任务的机器人。这包括推理、导航、运动机动性等多种能力的集成。同时,Mentee Robotics的业务范围不仅局限于“人工智能”,还涵盖机器设计、实行器制造和电子工程等,全程参与,确保每一个环节都达到最高标准。
▍MenteeBot如何战胜仿照与现实之间的差距?
为了更直不雅观地展示技能成果,Lior Wolf教授播放了一段现场演示视频,比拟了自家研发的MenteeBot与特斯拉的Optimus机器人。只管MenteeBot在外不雅观设计上不如Optimus精细,但其在行走、转弯、蹲下等动作上表现得更加自然流畅。这得益于MenteeBot在仿照器中的演习以及他们对仿照与现实之间差距的有效战胜。
MenteeBot展现出自然步态的底层缘故原由,是其在仿照器环境中进行了深入演习。MenteeBot所节制的每一项技能,都是通过仿照器中的不断学习而得到的。随后,通过战胜从仿照到现实转换过程中的大略差距,MenteeBot成功地将这些能力运用到了现实天下中。这标志着其在最低层次的阶梯——即运动能力方面,实现了有效的超过与运用。
在更高层次上,Mentee Robotics引入了具备认知能力的模型,这一模型能够将繁芜任务细分为一系列子任务。如演示所示,任务被奥妙地分解为API调用的直不雅观展示。这意味着,MenteeBot在吸收到任务后,能够充分理解其哀求,并利用前辈的大型措辞模型,将任务进一步拆解为一系列有序的API调用。值得把稳的是,这些API调用实际上因此Python代码的形式实现的,而演示中的英文文本仅是为了便于可视化而呈现的。
以一个详细的例子来说,当MenteeBot吸收到一个如“定位厨房桌子”的命令时,它会立即调用3D语义模型,这个模型精确地代表了厨房桌子的实际形态。演示中的红点正是MenteeBot成功定位到厨房桌子的位置。同时,机器人还会在3D模型中确定自己确当前位置,以蓝色的点表示,随后它便能够准确地导航至厨房桌子的所在。
为了圆满完成一项任务,机器人须要将推理、运动掌握、灵巧性以及导航等多种能力紧密地集成在一起,并确保它们能够协同事情,发挥出最佳的性能。演示视频全面展示了机器人从吸收任务到实行完毕的全过程。
Lior Wolf教授就如何让机器人能够一次性、连续地完玉成部任务这一核心问题进行了深入磋商。他强调,演示视频中包括了20到30个不同区域模型的集成。个中,只管有些功能是现成的,如文本转语音,但这只是例外。其他所有功能,包括大型措辞模型的微调、用于检测的开放词汇查询、带有语义层的天下三维建模,以及之前提及的运动能力等,都是由Mentee Robotics内部自主研发完成的。
每一个模型都是一个独特的AI实体,这些仿照器被奥妙地集成在一起,共同构建了端到真个任务实行能力。Mentee Robotics强调的是整体任务的连贯性,而非零散的片段或单一功能的展示。他们期望所有功能能够协同事情,而集成技能正是实现这一愿景的关键。
在实行端到端任务时,Mentee Robotics面临诸多寻衅。以双足机器人的导航为例,同步双腿以精确到达指定位置是一项极具寻衅性的任务。同时,折衷也是至关主要的环节。当机器人伸手拿取物品时,其全体身体须要保持平衡与稳定,就像人类在搬运重物时一样。因此,集成不仅是一个技能寻衅,更是一个须要Mentee Robotics不断占领的难关。然而,得益于Mentee Robotics稳定的平台和前辈的软硬件支持,他们有信心开拓更多创新功能。
末了,Lior Wolf教授展示了一段视频,记录了机器人在新环境的第21天。Cement正在利用三维语义舆图进行导航,并结合动态舆图实时检测潜在碰撞。这一功能是通过立体视觉技能实现的,而MenteeBot则能够将这两张舆图完美领悟,进行精准导航。当进入一个新的事情环境时,舆图绘制变得尤为主要。最直不雅观的方法是让MenteeBot跟随人类事情,通过不雅观察和学习人类的行动轨迹来绘制舆图。视频中展示了Antibody如何紧密跟随人类,纵然人类在移动中,它也能以平滑的办法完成任务。
▍AI在人形机器人中的运用及寻衅
在磋商AI领域的多元方法论时,Mentee Robotics所秉持的核心理念无疑是一个主要的议题。为了深入理解这一点,我们首先要明确复合AI系统与端到端AI系统之间的根本差异。
端到端系统,顾名思义,直接处理原始数据,从感知层面的信息(例如像素)直至实行详细动作,无需中间步骤。早期的自然措辞处理系统及措辞模型便是端到端理念的典范。事实上,不少人认为像GPT这样的模型仍属于端到端范畴,它们吸收输入标记,输出相应标记,并在海量数据上进行半监督式演习。然而,这种不雅观点并不完备准确。当前的趋势正悄然发生变革,即从传统的端到端AI模型向更为繁芜的复合AI系统转型。
复合AI系统与端到端AI系统在设计和运用上存在显著差异。复合AI系统通过结合多个组件来支持所需性能,例如在实行乘法运算时,它不会仅依赖文本预测,而是会编写并实行Python脚本来得出结果。在自动驾驶汽车领域,复合AI系统通过检测物体并基于这些检测做出决策,常日比端到端方法须要更少的数据,尤其是边缘案例数据。
为了更深入地理解这两种系统的差异,我们须要磋商统计学中的偏差与方差之间的权衡。偏差代表演习偏差,而方差则反响从演习集转移到测试数据时偏差的增加。在只考虑偏差的情形下,端到端系统可能更具上风,由于它能通过增加神经网络的容量来拟合任何数据。然而,当考虑到方差和边缘案例时,复合AI系统可能更为优胜,由于它将数据分解成组件,并在这些可识别的组件上做出决策,从而更好地泛化到新的例子。
对付端到端系统的支持者来说,减少方差是一个关键问题。而办理这一问题的关键在于网络更多的数据。
然而,在机器人技能领域,这一寻衅尤为艰巨。人形机器人的动作空间极为广阔,即便不考虑手部,人体本身就拥有29个自由度。为了充分覆盖所需的各种运动空间,机器人须要处理海量的数据。此外,实行任务、所处环境等成分都展现出极大的多样性。人形机器人作为一种通用型机器人,需能够实行人类所能完成的所有任务,并适应任何事情环境。因此,面对如此巨大的变异性,想要网络足够的数据来全面覆盖彷佛是一项不可能完成的任务。
比较之下,汽车行业虽然也有数百万辆汽车在行驶并不断记录数据,但其动作空间却相对有限。仅需几个自由度便能在现实天下中自由导航。因此,机器人技能的发展现状呼唤一个复合型的AI系统。这正是Mentee Robotics采取多个组件,并以高度实用的办法将它们整合在一起,从而创造出具备真正AI能力的机器人的缘故原由所在。
在磋商学习机器人技能的最佳路子时,动作学习办法的差异也是一个值得考量的主要成分。对付某些非传统或特定类型的机器人技能,业界方向于在仿照器内部利用强化学习的方法。在这种模式下,大部分的演习过程是在离线状态下进行的,借助集群来进行仿照操作,网络并一次性重新演习掌握机器人的AI策略。这一过程与学习滑雪或任何其他繁芜技能相似,须要韶光和履历的积累才能节制。一旦学会,这些技能便能实现自动化操作。值得一提的是,这些网络在运行时展现出极高的效率,能够在实时CPU上顺畅运行,同时确保高水平的安全性。
与此同时,模型预测掌握也是备受一些公司青睐的方法。在这种模式下,当机器人运行时,会同时运行一个天下模型或仿照器,以预测采纳特定行动后可能产生的结果。这种方法虽然有效,但涉及更多的打算量,并且须要一个更为精确的天下模型,这无疑增加了机器人的本钱。同时,它还须要操作者理解所拾取物体的重量以及环境的物理属性。
除此之外,还有第三种方法,即掌握理论。这种方法紧张依赖于数学家对任务进行建模,并将这些模型编程到机器人中。然而,这种方法存在一定的局限性,由于数学家在创造新类型动作方面的能力是有限的。这须要对天下进行建模或做出一些近似处理。例如,当机器人波折膝盖时,其行为就更像是一个摆,这时可以利用摆的方程来描述其行为。然而,这种方法限定了机器人可以实行的动作类型,并且难以添加新的动作。因此,在机器人技能的发展中,选择适宜的学习方法和技能路径是至关主要的。
▍Mentee Robotics采取的学习改动策略
在磋商如何战胜人形机器人从仿照环境到现实天下的适应难题时,Lior Wolf教授首先提出了一个富有启示性的思想实验。
他假设存在一种策略,能让机器人在现实天下中有效事情。若让机器人在现实天下中实行一系列动作,并记录每一个动作,然后将其放回初始位置,重复实行相同的动作序列,结果会如何呢?遗憾的是,机器人在几步之后就跌倒了。这是由于物理系统中存在诸多噪声,没有两个状态是完备相同的。因此,机器人须要具备适应环境的能力,固定的掌握策略无法应对繁芜多变的现实天下。
接着,Wolf教授进行了另一个思想实验。假设我们能够让机器人在仿照器中自由行走,并记录下它所采纳的一系列动作。随后,我们考试测验在现实天下中复制这一动作序列,当机器人在相同的位置启动时,会发生何种情形呢?显然,机器人会像之前在仿照器中一样跌倒,这表明它并未能适应现实天下的环境。但更值得把稳的是,机器人在现实天下中跌倒的速率会比在仿照器中更快。这一征象的缘故原由在于,无论仿照器的质量如何,其内部的物理机制都无法与现实天下完美匹配,这便是所谓的“仿照与现实之间的差距”。
深入思考仿照器的事情模式,它基于当前物理天下的状态和预设的动作来预测下一个状态,这是一个将当前状态和动作映射到未来状态的过程。而现实天下,同样如此运作:我们拥有当前的状态,实行动作,韶光推移,从而得到现实天下中的下一个状态。
问题的核心在于,这种“现实差距”实际上是指模拟器内部预测的下一个状态与现实天下中实际发生的状态之间的差异。
那么,如何缩小这种差距呢?Wolf教授提出,可以通过学习这种差距并进行补偿来战胜它。这种差距实际上是状态和动作的函数,因此可以通过学习来进行改动。
然而,这种方法在仿照器内部学习并不自然,由于须要暴露出一些仿照器无法供应的信息,而且也无法做到完美。
Mentee Robotics提出了一种创新方法:通过操控动作空间,以提升仿照与现实的匹配度。他们设想,在准备实行某个动作时,可以通过一个网络进行微调,从而缩小仿照与现实之间的差距。这样,问题就从“最小化仿照与现实差距”转化为“学习动作策略”。
在此根本上,Mentee Robotics利用强化学习来学习行走。他们定义了状态空间、动作空间和褒奖机制,并通过向仿照器中添加噪声来降落对仿照与现实差异的敏感度。然后,他们将学习到的策略运用于现实天下中的机器人,网络数据,并利用这些数据来优化仿照器。
为了最小化“仿照与现实差距”,许多人采取领域随机化方法,通过向仿照器中添加噪声来降落对仿照与现实差异的敏感度。Mentee Robotics也采取了这种方法,然而,他们创造,仅仅通过调度仿照器的参数来更好地匹配现实并不敷够。于是,他们采取了一种学习改动策略的方法,它能够调度要实行的动作,从而最小化“仿照与现实的差距”。这种方法像其他策略一样,可以在仿照器中利用强化学习来演习。
接下来,Lior Wolf教授就“如何网络现实天下中的数据并利用这些数据来优化仿照器”进行了深入磋商。他假设,我们已经在仿照器中学习了一些初始策略,并通过领域随机化等技能对这些策略进行了演习。随后,我们可以将这些策略运用于现实天下中的机器人,让它们运行,并从现实天下中网络数据。这些数据详细是什么呢?它们是从特定状态开始的一系列过程记录:我们运用某个动作,然后不雅观察现实天下中机器人进入的下一个状态,再运用下一个动作。这一系列动作正是我们在仿照器中学习的策略。在现实天下中,我们记录了状态-动作-下一个状态-再下一个动作的连续序列。
网络到这些数据后,我们该如何利用它们呢?文献中供应了一些办理方案,如“从仿照到现实,再回到仿照”的循环迭代方法。这些方法大多试图通过调度仿照器的参数来使其更好地匹配现实天下。这些系统在某些领域(如机器臂掌握)中已经得到了有效运用,但在足部行走方面尚未证明其有效性。Mentee Robotics也考试测验过这些技能,但遗憾的是,它们并没有在最小化“仿照与现实差距”上取得显著成果。
因此,Mentee Robotics采取了一种新的学习改动策略的方法,该方法能够调度要实行的动作,从而有效最小化“仿照与现实的差距”。给定特定的状态和动作输入,它会输出一个称为“C”的改动项。MenteeBot不再直接采纳原始动作,而是将改动项添加到原始动作中,得到一个新的动作。然后,在仿照器中运用这个新动作,并通过一个能最小化仿照与现实差距的褒奖函数来学习优化。
一旦MenteeBot学习到这个改动策略,就可以在仿照器中重新演习策略。当MenteeBot运用改动项时,它会确保“仿照与现实的差距”变得更小,使得策略在现实天下中的运用更加有效。
而在现实天下中运用这种新策略时,将不再须要改动项,由于现实天下本身不须要任何补偿。Mentee Robotics的测试证明,通过这种办法演习出的行走策略确实提高了人形机器人的行走效果。
这项事情的详细贡献在于,它供应了一种有效的“从仿照到现实,再回到仿照”的方法论,尤实在用于足部行走机器人的研发。它通过改动动作空间来改进仿照器,这种改动策略像其他策略一样,可以在仿照器中利用强化学习来演习。实际上,我们可以衡量它对人形机器人步态的显著改进效果。
视频中展示的是一个实验场景,Mentee Robotics将现实天下中学到的内容运用在仿照器中,结果机器人险些急速就跌倒了,这凸显了仿照与现实之间的差距。
随后,Mentee Robotics考试测验利用监督学习来弥合仿照与现实之间的差距,虽然带来了一些改进,但效果并不理想,机器人仍旧很快就会跌倒。
然而,当Mentee Robotics运用改动策略并在仿照器中播放现实天下中的数据时,机器人能够持续稳定地行走,由于这个学习到的策略成功地最小化了仿照与现实之间的差距。
不雅观察得到的运动数据,可以创造Mentee Robotics最初的版本一号机器人的步态比以前更加对称和自然。如果仔细不雅观察步态细节,会创造踩踏的办法比不应用改动项时更加自然流畅。
Mentee Robotics有一系列的评估指标可以证明,这种事情办法远远优于不该用改动项或试图通过监督方法来弥合仿照与现实之间差距的做法。无论是运动的流畅性、方向的掌握,还是其他方面的性能,都得到了显著提升。
Lior Wolf教授强调指出,机器人是依赖软件运行的,而软件的主要性不亚于AI算法本身。MenteeBot的系统设计精心配备了一个运动掌握器,该掌握器是一个实时运行的CPU,专门用于实行我们在仿照器中学习到的动作策略,并确保在这个实时CPU上运行着至关主要的安全功能和安全层。除此之外,MenteeBot还特殊配备了两个Jetson处理器,个中一个专注于处理核心感知任务,如摄像头信息的处理、机器人位置的状态估计等;而另一个则卖力处理其他任务,包括运行大型措辞模型、语音处理、神经打算等,以确保系统的全面高效运行。
对付机器人的开拓而言,一个完美的数字孪生体至关主要。Mentee Robotics为机器人建立了全面的模型,包括从嵌入式软件到物理层和核心层的所有层次,并与物理仿照器一同实现。这对付拥有一个完美的模型并战胜仿照与现实之间的差距至关主要,也对调试事情非常主要。Mentee Robotics所做的每一项变动都须要在实际运行到物理机器人之提高行严格的调试和验证。
▍Mentee Robotics采取的“导航”策略
只管导航听起来可能像利用谷歌舆图或其他运用程序一样大略,只需知道路径并按照它提高,乃至现实天下中的汽车也能实现自动停车,但这种看似轻松的任务对付人形机器人来说却是一项远为繁芜的寻衅。这不仅哀求同步腿部动作与位置,还须要确保精确的方位以指引精确的行进方向。
实际上,导航涵盖了三个不同的层次。最高层次类似于谷歌舆图的运用,须要明确自身位置与目标地点,这涉及图搜索问题,旨在探求最佳路径。最低层次则聚焦于掌握层面,如提高、退却撤退、侧移、转弯等基本动作的实行。而中间层次,即路径跟随,扮演着桥梁的角色,它须要将目的地转化为机器人可理解的指令,并确保这些指令的合理性,避免溘然转向等不切实际的操作。同时,还须要考虑机器人的动量与运动状态,以确保步伐的平稳同步,从而精确抵达目标。
在导航层,Mentee Robotics利用基于NERF的天下舆图,该舆图领悟了静态障碍物信息、动态舆图以及立体视觉获取的遮挡数据。通过改良的AI算法,MenteeBot能够方案出从当前位置至目标点的路径。
这条路径随后被作为一系列下一步位置的指令输入到路径跟随策略中,进而转化为机器人可实行的详细指令。路径跟随策略分为两种:一种适用于近间隔(1米以内)的精确导航,另一种则适用于更远间隔的高效导航。前者虽然方向精确性高,但效率略低;后者则能在保持较高方向精确性的同时显著提升效率。前者在机器人须要紧密跟随移动目标(如演示中的跟随行人)时尤为主要,而后者则适用于快速、大范围的移动。终极阶段的精确导航哀求机器人以高度精准的办法抵达目标,同步步伐,规避障碍,实现高效且稳定的导航。
▍Mentee Robotics采取的“感知”策略
感知是一个繁芜且多维度的过程,它涵盖了多个关键组成部分。
首先,是对现实天下进行神经映射,构建出一个语义化的三维模型。在这个模型中,机器人具备搜索能力,并能精确定位自身位置。随着机器人的移动,我们通过视觉或其他传感器的数据追踪,来精确估算其位置,这一过程被称为状态估计。状态估计是导航的主要输入,在机器人试图到达准确位置并方案行走路径及掌握策略时,它发挥着至关主要的浸染。
此外,感知还涉及图像中的物体识别。当机器人看到图像时,它不仅能识别出图像中的物体,还能将这些信息提升至三维空间中,以便在抓取物体时能够避开障碍物。无论是在行走还是在进行手部操作时,都有一个地形图来指示机器人哪些区域可以进入,哪些区域须要避开。
Mentee Robotics所采取的某些组件,源自对其他根本模型的精髓精辟与提炼。然而,这些组件须要在GPU上以极高的帧率实时运行,同时保持高效性能。为实现这一目标,Mentee Robotics采纳了模型蒸馏技能,即从大型根本模型中提炼出一个更为精简的网络构造,旨在提升运行效率的同时,尽可能减少精度的丢失。
在Mentee Robotics的运用中,部分模型领悟了多样化的功能。例如,在将二维物体转换为三维物体的过程中,Mentee Robotics奥妙地将三维点云技能与名为NanoSIM的分割模型相结合。对付某些特定物体,Mentee Robotics采取神经辐射场(NeRFs)进行建模,并通过视觉嵌入技能进一步增强其性能,同时在系统的其他环节充分利用这些信息。
此外,Mentee Robotics还研发了一些独具特色的组件,如其用于状态估计的方法。该方法创新地将神经辐射场定位与视觉传感器数据相领悟,以知足Mentee Robotics特定的运用需求。
正如之前所说,MenteeBot依赖一个基于立体视觉的地形图来指示行走时需避开的区域。同样,在实行风雅操作时,MenteeBot也有一个指定的行走区域,须要明确从哪个位置出发到达目标物体并进行抓取,同时规避各种障碍物。这些地形图供应的信息直接融入了MenteeBot决定行动的各种强化学习策略中。
Mentee Robotics采取神经辐射场(NeRFs)和高斯分布来构建三维天下的模型。NeRF是一个神经网络,给定三维空间中的一个点和一个视角,它能够输出该点的颜色和透明度,为MenteeBot供应了丰富的视觉信息。
Mentee Robotics通过神经辐射场进行映射和定位的方法是这样的:首先从网络到的视频数据中构建一个环境的NeRF模型。
然后,运用一种名为Super的技能来探求并追踪NeRF模型中我们感兴趣的点。接着,学习如何将摄像头所看到的内容与三维NeRF中的Super点进行精确定位匹配。
这使得MenteeBot能够运行一个称为One Shot的算法,该算法可以将NeRF模型中的Super点与实际图像中的点进行精确匹配。MenteeBot每隔几帧就会运行一次这个算法,同时它也能够持续追踪机器人的位置。通过这种办法,MenteeBot能够将机器人精确地定位在这个三维语义模型的坐标系统中。
模型中的每个点不仅包含了RGB信息,还蕴含了丰富的语义信息。这些信息使得MenteeBot能够进行各种灵巧的查询,例如搜索烤箱、冰箱等所有物体,这统统都基于开放词汇搜索。无需预先定义物体列表,只需将信息嵌入到三维模型中,便可以进行各种便捷的查询。
Mentee Robotics的做法与一种称为LOVE的方法有着相似之处。LOVE就像是一个结合了语义特色的NeRF。在原始的LOVE模型中,他们利用了DINO特色进行极化,并利用CLIP特色进行查询。而在MenteeBot的系统中,我们不该用多个尺度,而是通过分割实际物体来嵌入工具信息。
Mentee Robotics采取的是基于OWL version 2模型的嵌入办法,用于模型蒸馏和创建查询。因此,MenteeBot能够在二维图像、三维真实图像和三维天下模型之间以统一的办法嵌入视觉信息,从而在性能上显著超越基准模型。
▍构建实用人形机器人所需的关键要素
Mentee Robotics已经成功集成了多个组件,创造出能够实行多样化任务的机器人,但仍面临一些尚待完善的寻衅。Lior Wolf教授逐一列举这些缺失落的部分,并就Mentee Robotics操持如何战胜这些寻衅,以及已经采纳的积极步骤进行了阐述。
Mentee Robotics为机器人方案了一套全面的任务舆图,称之为功能设计架构。它涵盖了机器人实现实用性所需的所有能力,包括之前磋商过的一些核心组件。想象机器人初入办公室的场景,这便是其“入职”过程。机器人进入新环境,需通过跟随人类来熟习环境。人类会指向不同的地点或物体,机器人则需记住这些信息以备后用。除了直接要求的任务,还涉及代理行为。作甚代理行为?即授予AI宽泛的任务定义,无需过于详细,AI需自行决策如何完成任务。只管MenteeBot已具备浩瀚所需能力,但仍有一些关键能力亟待提升。例如,Mentee Robotics须要增强机器人对事宜的相应能力;在物体操作方面,如开门、呼叫电梯等,Mentee Robotics也在持续优化。
在人机交互方面,Mentee Robotics的机器人已能检测并跟踪同一人,纵然在视角转换时也能保持稳定跟踪。但偶尔会涌现跟踪丢失的情形,这时须要重新识别该人在多个人中的身份,这称为重新识别,目前尚未实现。重新识别通过面部识别和识别人的穿着颜色来完成。机器人还需具备靠近人的能力,即前往指定人的位置,这通过Mentee Robotics之前磋商的路径跟随RL策略来实现。当机器人间隔人1米时,它会停下,这是一个旗子暗记,表明机器人需在此位置停滞。“面向我”功能之前已提及,它是指保持人在视野中央,以便人可以向机器人展示新事物。
当机器人跟随人时,它会网络视觉数据,并构建3D模型。目前,这项任务并未在机器人本身的Jetson模块上完成,Mentee Robotics操持将其添加到Jetson模块中,这样机器人就能在安歇状态时,在不依赖外部打算的情形下实行此操作。
在指向界面方面,人类可能会指向某个位置并给出相应指令,如“这是主电梯”或“这是我们利用的最大箱子”。在所有情形下,都会有一个指向动作和伴随的人类指令,但这些指令在不同情形下具有不同的语义含义。
这涉及到特定位置的识别,有时也涉及到特定物体的识别。机器人需理解这些情形,并做出区分。这并非难事,可通过大措辞模型来实现,模型可帮助区分这些不同的情形。然后是指向界面,机器人需识别人类的姿态,跟踪手指末端,判断人在3D空间中指向的物体。这一功能已实现,它涉及跟踪人的姿态,并将这些信息提升到3D空间中。如果人在指向某个物体,机器人需记住这个物体的外不雅观,这涉及视觉嵌入,目前Mentee Robotics已在系统的多个部分实现了这一功能。另一种学习办法是记住舆图中的某个特定位置或观点,这可通过学习高下文信息来完成,然后将这些信息输入到大措辞模型的提示中。
Mentee Robotics还磋商了一些代理行为的功能,使机器人能够进行自我反思。目前MenteeBot已具备这一能力,但范围有限。如果机器人在考试测验某项任务时失落败,它会意识到这一点,并考试测验另一种办法。但Mentee Robotics还需增加对事宜的触发能力,例如前往某个特定地点并等待某件事发生。这须要增强机器人对未来事宜的触发相应能力,这是Mentee Robotics需在系统中添加的功能。
物体操作至关主要,涉及多种类型的操作。例如,按按钮。这需检测按钮,确定所需的方向和力度,并实行这一动作。这需将视觉模型与措辞模型结合,以掌握强化学习策略,从而实现这一功能。其他操作能力,如开门,由于门把手类型多样,机器人需通过模拟人类的动作来学习。这可通过将像素映射到动作空间并利用模拟学习技能来完成。
在谈谈机器人处理跌倒的能力方面,Mentee Robotics的策略非常健全,机器人能以非常自然的办法行走,不会无端跌倒,它能以稳定的办法站立并实行所需的操作,乃至能负重行走。然而,有时地面上存在一些障碍物,只管我们看到了这些障碍物并试图绕开它们,但有时不可避免地会踩到障碍物。Mentee Robotics在机器人上运行了一个名为S4的模型,用于检测机器人何时即将跌倒。如果机器人即将跌倒,并且可以通过站稳脚步来纠正,这是最佳办法。如果跌倒不可避免,机器人会只管即便让自己变得优柔,以一种对自身和环境都安全的办法跌倒。
安全性是一个主要的考量成分。虽然机器人卖力自己的行动,但在对抗脾气况下,例如有人试图使机器人跌倒或欺骗机器人,机器人仍需保持高度的安全性。