文 |《瞭望》新闻周刊 董雪 龚雯 演习生 宫雅婷

“你好,我是青龙人形智能机器人,能帮你做家务。

“你看桌面上有什么?”

“我看看。
桌面上有三个面包、两个水果。

瞭望|从0到1造一小我形机械人需要哪些关键技能

“你帮我清理一下吧。

“好的,正在为您整理中,我先把面包和水果分类摆放。

说话间,身高1米85、体重80公斤的“青龙”看向桌面,依次拿起面包和水果,分类放入筐中。
现场展示了行走、对话、做家务等能力。

在2024天下人工智能大会上,环球首款通用人形机器人开源公版机“青龙”惊艳亮相。
“我们看到,人形机器人可以通过措辞信息理解人的意图,根据现场环境做出综合判断并实行任务。
”现场事情职员先容,这个任务看似大略,实际上表示了“大小脑”的感知、方案、决策以及掌握能力,代表了海内子形机器人技能的领先水平。

“青龙”由国家地方共建人形机器人创新中央(以下简称中央)打造,该中央于今年5月,由工业和信息化部和上海市政府共同授牌,落户浦东。
中央科研团队硕博士占比约80%,研究团队长期从事人形机器人领域技能研究与软硬件研发。

拥有43个自由度的“青龙”,代表了目前人形机器人行业比较顶尖的硬件设计水平。
“青龙”不仅在硬件参数上达到了国际领先水平,更在具身智能技能的集成与运用上展现出了特有的上风。
“‘青龙’包含人形机器人平台技能、具身智能、数据集和智能演习场四大技能板块,我们已经进行了开源,希望更多人参与到人形机器人的技能创新中来。
”中央首席科学家江磊说。

近日,《瞭望》新闻周刊走近“青龙”,与科研团队对话,看如何打造和演习一个“精良”的人形机器人。

机器躯体:人形机器人的“骨肉”

“平台技能可以大略理解为机器躯体,是人形机器人的根本,包含行走与驱动系统、操纵与作业系统、感知与掌握系统三大模块。
”中央机器人平台技能卖力人梁振杰先容说。

本刊在现场看到,“青龙”一步一步走上讲台,然后停下来向不雅观众挥手打呼唤,它走路的速率不算快,但步伐足够稳健,躯体构造与人体类似。

梁振杰先容,“青龙”全身集成了43个主动自由度,实现从头部得手部、臂部、腿部、腰部和踝部的全尺寸设计。
枢纽关头模组是躯体构造的核心组成单元,它一共搭载了10种、31个枢纽关头,最大枢纽关头扭矩达到396Nm,峰值扭矩密度实现了200Nm/kg,用以实现高强度动力输出。

双足卖力行走,双臂实行作业。
梁振杰说,“青龙”的腿部系统追求轻量化、高刚度和低惯量,搭载了高扭矩密度的轴向电机,以此保障它在繁芜地形中的稳态行走能力。
其上肢配备了7自由度的机器臂与集成触觉感知的五指机动手,为完成风雅操作和繁芜任务供应了硬件根本。

在动力和电源管理方面,“青龙”搭载了有能量回收系统和输出稳压管理的电源系统,可以支持其在繁芜工况下持续运行3小时至4小时。

“青龙”搭载了算力可达400TOPS的掌握器和丰富的外部接口,用以知足人形机器人产品以及常规外部设备的利用哀求。
400TOPS意味着掌握器每秒可以进行400万亿次操作,是当前非常强大的算力,能支持繁芜的AI运用和高等别的自动驾驶功能。

平台整体集成了“视、听、触、嗅、动”五感领悟设计,使人形机器人能感知周围环境。

“‘青龙’平台的核心技能经由了十多年的技能沉淀,标志着我们的人形机器人平台技能实现从无到有的打破。
”梁振杰说。

青龙核心研发团队是海内最早开展仿生腿足式机器人研究的团队之一,拥有近十年机器人行业技能积累,构建了仿活气器人核心技能体系,建立了机器人掌握、感知、交互等核心技能群,支撑着“青龙”处在海内子形机器人技能领先水平。

全尺寸通用人形机器人开源公版机“青龙”(2024年7月4日摄) 王翔摄/本刊

具身大脑+小脑模型:人形机器人的智力

“青龙”拥有“朱雀”具身大脑和“玄武”小脑模型。

“朱雀”具身大脑是一个以多模态大模型为核心的机器人指挥调度中央,利用多模态大模型的感知能力、任务理解能力、影象能力以及方案能力,帮助机器人完成任务。
输入办法是笔墨和图像信息,支持语音交互,终极将任务决策信息输出给“玄武”小脑模型。

采访理解到,在当前发布版本中,“朱雀”具身大脑共集成3个大模型,分别是:科大讯飞星火大模型、上海人工智能实验室诗人·浦语大模型、上海人工智能实验室诗人·万象多模态大模型。

“朱雀”具身大脑拥有跨设备的调度框架。
详细来看,诗人浦语大模型和万象多模态大模型运行在本地做事器,个中,措辞大模型实现用户意图识别与对话功能;讯飞星火大模型与浦语功能相似,但是运行在云端做事器;多模态大模型具备处理图像的能力,当识别到用户的任务与当前环境干系时,会启用多模态大模型进行环境感知。

中央具身智能卖力人田翀说,在后续更新版本中,我们将微调参数量较小的措辞模型,直接支配在机器人终端,作为大模型的补充。
对付大略问题,机器人直接做出回答,从而减少与做事器通信的韶光,实现更快速准确的交互与技能调度。

“玄武”小脑模型是任务实行模型,分为轨迹方案模块和运动掌握器两个部分。
首先,轨迹方案模块卖力输出期望轨迹,它由端到真个机载视觉信息为驱动,以人类动作为模拟工具。
然后,由运动掌握器掌握人形机器人做出相应的动作。

田翀先容说,小脑模型紧张有掌握理论、模拟学习、强化学习等三条技能路径。
掌握理论常日须要对系统进行详细建模,模拟学习通过模拟专家的行为来学习任务,强化学习则是让人形机器人通过与环境的交互来学习,三者各有利害。
上述三种技能路径,“玄武”小脑模型都采取了。

不断进化的具身大脑和小脑模型让人形机器人更聪明。

数据:人形机器人的“灵魂”

受访者表示,决定人形机器人智能程度的关键成分是数据。
“数据是人形机器人的灵魂,数据越富集,‘大小脑’的智能越高、能力越强。
”中央具身智能卖力人邢伯阳先容,“大小脑”须要非常多数据进行综合演习,包括但不限于多样化垂类场景演习数据、多模态语音数据、人体开源数据、运动捕捉数据、机器人本体数据、环境地形数据等。

人形机器人自身的数据采集紧张有两类,邢伯阳说,一类是通过全身运动捕捉设备捕捉人体全身高精度运动枢纽关头角度,可以演习人形机器人完成走、跑、跳、抓、拿、放等多种技能。
另一类针对机动的专用作业和风雅作业,是通过头戴式视觉系统完成毫米级手部动作的采集。

通过“解剖”小脑模型,能看出数据对其的塑造作用。
“我们首先网络了大量的人力数据,以模拟学习为根本打造行为策略和行为标准。
然后利用掌握理论和强化学习打造运动掌握系统,在3个月内完成了小脑模型的算法开拓和迭代。
”田翀说,我们充分利用了人体运动数据,结合模拟学习策略,为机器人运动演习供应了精准的参考轨迹和运动标准。
同时,我们还将传统的运动掌握方法运用于数据网络工具的开拓,并将这些思想融入到强化学习演习中。

通过技能领悟,不仅提高了机器人运动掌握策略的演习效率,缩短了演习周期,还确保了策略在实际运用中的安全性和可靠性,这是“玄武”小脑模型与其他小脑模型比较的一大特点。
“当然,该模型还在发展初期,能力和功能仍需提升和完善。
”田翀说。

借助AI,管控平台同时完成对数据标注、管理与模型支配的需求,助力实现机器人数据采集、评估洗濯、训推一体的全流程闭环。
邢伯阳向阐明说,通过仿真环境对采集数据实现快速的测试,对失落败数据单元进行删除,完成对原始数据的洗濯,再对神经网络模型进行演习,实现面向机器人端快速支配。

中央操持用3年韶光完成“白虎”数据集的构建,一方面培植超过100个高精度运动采集设备,另一方面共享业界其他单位采集的数据,实现洗濯后的高质量数据总量超过1PB,覆盖超过100个场景、2000个任务。
如果1部高清电影占用的数据空间大约是1GB,那么1PB的数据量大约可以存储100万部这样的电影。

演习场:人形机器人的学校

“人为演示一个动作大约50次,机器人就能学会。
”在2024天下人工智能大会的国家地方共建人形机器人创新中央展区,看到了一个小型的机器人“演习场”,现场事情职员如同一个闇练的“老师傅”做着生产线上的抓取动作,4个机器人则随着他同步做出了一样的动作。

为什么要搭建演习场?中央技能卖力人刘宇飞说,构建智能演习场,仿照产线及工业流水线,网络多模态数据,并搭建数据管理平台,将有效提升人形机器人在不同场景下的作业能力,加速具身智能技能的发展与运用落地。

在位于上海张江的国家地方共建人形机器人创新中央,看到更多机器人在努力学习人类本领:它们有的在学习高负载状态下稳定快速地行走,有的在练习拿饮料、饼干平分歧形状和重量的物品……

“归根结底,演习场是数据生产和数据规模化的园地。
”刘宇飞表示,演习场分为感、存、算、学、用五个部分。
“感”和“存”紧张用来做云端数据的采集,包括要操作的数据、音频数据、自然措辞、运动捕捉等。
“算”和“学”是指机器人的技能模拟学习和强化学习,紧张是做单臂、双臂以及全身行为的运动演习。
“用”则是在工业生产线及做事等场景里实现人形机器人最新的仿照和运用。

刘宇飞先容,演习场数据的生产方法包括三个阶段:

第一步是打造单臂的单技能学习与作业工具环境的泛化能力。

第二步是基于协作臂把这套技能路线迁移到“青龙”的上肢。

“青龙”的上肢单臂拥有7自由度+6自由度的机动手,协作臂是单臂6自由度+夹爪;为了使机动手拥有更广的作业空间,没有加入手腕相机。
迁移时,我们对采集数据实时优化,在韶光上严格对齐动作轨迹和图像,以达到和三相机(1头部+2手腕)同样的学习效果。

第三步则是生产大规模、低本钱的人类作业视频。

演习场不仅关注“小脑”模型的演习,还涉及“大脑”模型,如环境感知、行为掌握、人机交互、云端网联等能力的演习。

“2024年,我们会在上海打造100+人形机器人的产品、100+人形机器人的演习场。
到2027年,我们期待能够在多个城市、面向各种场景,搭建1000+人形机器人演习场来做事全体人形机器人生态。
”刘宇飞说。

来源: 新华网