原文来源:X

李飞飞打了个很有趣的比方,在五亿四千万年前的寒武纪,三叶虫的涌现开启了视觉感知,并引发了智能的发展。
而 十年前,对图像进行标注,让打算机视觉取得了打破,就像初现曙光的三叶虫看到的第一缕光,也开启了当代 AI 的新世纪。

视频来源:https://youtube.com/watch?v=Ctuhh8VqtfI…

以下是完全文稿:

斯坦福大年夜学李飞飞从看见到行动空间AI的今朝进展和未来的神奇魔力

弁言

嗨,大家早上好。
我非常高兴能来到这里。
本日,我不会给大家展示任何产品或者现场演示。
我来这里是想要带大家一起磋商未来的可能性。
这个未来,不仅是对措辞的理解,而是一种从“看”到“做”的转变。

过去与现在

让我从一些详细的事物开始讲起。
实际上,我想请大家把我字体放大一些。
但实际上,我并没有本色性的内容要展示给大家。
这并不是技能故障。
这实在是我们的天下,就在 540 百万年前。

那时,一片纯粹、无尽的阴郁。
这种阴郁并不是由于短缺光芒,而是由于缺少视觉。
确实,阳光可以穿透海洋,达到海底一千米的深度,从热液喷口散发出来的光也能照亮海底。
只管生命在这里发达发展,但却没有一只眼睛能够瞥见。
那时的海洋就像外星一样,没有视网膜,没有角膜,没有晶状体。
以是,所有的光,所有的生命,都在阴郁中过着无人知晓的生活。

直到三叶虫的涌现,它们是第一种能够感知光芒的生物。
也是我们本日所熟知的现实天下的第一批居民。
首次创造的是一个天下,存在着超越自我的东西,那便是许多其他的“自我”存在。
瞥见的能力或许开始帮助引入了一个被称为“寒武编年夜爆炸”的期间,这个期间有很多动物种类进入了化石记录。

一开始只是大略地让光芒进来,这样的体验是被动的,但很快就丰富起来,变得积极主动。
然后,神经系统开始蜕变。
我们从瞥见的视觉,得到了洞察的能力。
“瞥见”变成了“理解”,理解引领我们行动,而所有这些都匆匆成了智能的产生。

当代 AI 的进步

以是,半个亿年后,我们对付自然授予的智能已经不再知足。
人类现在正在探求如何创造出能够像我们一样,乃至更好地看天下的机器。
九年前,我在 TED 上做了一个演讲,我当时分享了打算机视觉的早期进展,这是人工智能的一个子领域。

大约十年前,有三大强大力量首次涌现,一种被称为神经网络的算法家族。
还有一种专用而快速的硬件,叫做图形处理单元,或者 GPU,稍后你们会听到 Jensen 的演讲。
还有大数据,比如我实验室花了几年韶光策展的那个包含 5000 万张照片的数据集,我们称它为 ImageNet。

当这些元素结合在一起,打算机的视觉能力不仅比以往更强,也开启了当代 AI 的新世纪。
自那往后,我们走过了很长的道路。
那是十年前,只标注物体就成了一种打破,就像初现曙光的三叶虫看到的第一缕光。
但神经网络算法的速率和准确度很快就提高了。
年复一年,我们实验室举办的 ImageNet 年度寻衅赛,都在评估这些算法的性能,每次提交的结果都刷新了记录。
如你所见,这张图展示了每年的进步和一些里程碑模型,实在是让人惊叹。

但我们并不止步于此。
我们以及其他实验室进一步研发出了可以切分工具,乃至识别视频中它们动态关系的模型,就像你在这里看到的。
当然,还有更多新的发展在等着我们。

未来的发展

我记得我第一次公开展示了第一个能用人类的自然措辞描述图像和照片的打算机视觉算法,便是自动图像字幕编写。
那是我和我的精良学生 Andrej Karpathy 互助的时候。
我发起让 Andrej 试试反过来操作,用一个句子去天生一张照片。
Andrej 回应说,“哈哈,那不可能。
”然而,就如你从他最近的推特上看到的,没过几年,不可能变成了可能。
这统统都归功于最新的天生式 AI 中所用到的扩散模型的发展。

AI 程序现在能够根据人类输入的任何句子创造出全新的照片或视频。
你们中的许多人可能已经看到了 OpenAI 以及其他公司最近所创造的俏丽成果——Sora 但是,在没有大量 GPU 的支持下,我和我的学生、互助者在 Sora 发布前的几个月,就创造出了一个叫做 Walt 的天生模型。
这只是个中的一部分成果。
你可以看到,我们仍有很大的进步空间,我们会犯缺点。
看看那只猫的眼睛,它乃至在水下贱动时都没有打湿。
我把它戏称为“猫灾”。
我希望有人能为我编出更好的 AI 笑话。

不过,如果过去是序曲,我们会从这些缺点中学习,并创造出我们想象的未来。
在那个未来,我们希望充分发挥 AI 的所有能力。
多年来,我一贯强调,拍照并不等同于看到并理解它。
现在,我想再补充一点,仅仅看到是不足的。
看,是为了行动和学习。
当我们在 3D 空间和韶光中对天下采纳行动,我们会学习,我们会更好地看和行动。

空间智能

大自然创造了一个由空间智能驱动的不雅观察与行动的良性循环。
为理解释你的空间智能在不断发挥浸染,我们来看看这张照片。
如果你看这张照片有想去做点什么的冲动,请举手。
如果在现实生活中,你真的碰到过这种情形,就请保持举手。
在过去的瞬间,你的大脑不雅观察到了玻璃的几何形状,它在 3D 空间中的位置,以及它与桌子,猫,和周围所有事物的关系,然后你预测了接下来可能会发生的事情。
然后,你可能会向那个玻璃杯扑去,以保护你的地毯免受污染。

这种行动的冲动是具有空间智能的生物所天生具有的,它将我们的感知与行动联系在一起。
以是,要想让 AI 超越目前的能力,我们须要的不仅仅是能看或者说话的 AI。
我们须要的是 AI 能做出行动。
就像自然界使我们所做的那样。

近期进展与未来展望

事实上,我们在这方面正在取得令人振奋的进展。
我们在空间智能方面的最近的里程碑正在催生出一种良性循环,这种循环使打算机能够看到,做,学习,然后更好地看到并做。
但是,这并不随意马虎。
动物进化出空间智能须要数百万年,比较之下,措辞的进化只须要几十万年。
而且,这种进化依赖于眼睛利用光芒将 2D 图像投射到视网膜上,大脑再将这些图像转化为 3D。

最近,Google 的一个打算机视觉研究团队就实现了这一点。
他们创建了一个算法,只须要一组照片,就能把数据转化为 3D 形状或场景。
这里有更多这项事情的示例。
同时,我的学生和同事受到斯坦福这项事情的启示,更进一步,他们创建了一个只须要一张图片就能天生 3D 形状的算法,就像你现在看到的。
这里有一些最近事情的更多示例。

笔墨输入制作视频

我记得我们之前用过笔墨输入来制作视频。
密歇根大学的一组研究职员找到了一种方法,可以把一行笔墨转化为 3D 房间布局。
你现在看到的便是一个例子。
同时,斯坦福的我的同事们及其学生,已经开拓出一种算法,能够把一张图片转化为无数个可能的空间,供不雅观众探索。
这些原型是未来可能性初露头角的标志。

人类将以数字形式捕获我们的全体天下,并能仿照我们天下的丰富性和细微差别,这是一种可能性。
自然在我们个体的心智中隐性完成的,现在空间智能 AI 有望在我们的集体意识中实现。
随着空间智能的进步加速,这个虚拟周期的新纪元正在我们面前展开。
这种来回式的过程正在推动机器人学习的发展,这是任何必要理解并直接与 3D 天下互动的实体智能系统的关键组成部分。

机器人学习

十年前,我所在的实验室开拓出的 ImageNet,这是一个包含数百万高质量图像的数据库,帮助打算机学会看。
现在,我们正用行为和动作教打算机如何在 3D 天下中活动。
我们现在不再手动创建演习样本,而是利用仿照环境,比如 NVIDIA Omniverse 供应的环境,它由 3D 空间模型驱动,供应无尽的变革和交互。

你现在看到的是在仿照环境中演习机器人的无穷可能性的一小部分示例,这是在我的实验室领导的一个名为 Behavior 的项目。
在机器人措辞智能方面也取得了令人愉快的进展,这结合了视觉和空间智能。
利用基于大措辞模型的输入,我的学生和互助伙伴在首批展示机器人手臂可以根据口头指令实行各种任务的团队中。

比如这一条,让机器人打开抽屉,但要把稳瓶子。
或者这一条,哀求机器人拔掉手机充电器。
这是一种不常见的拔插办法,但也可以接管。
还有这一条,让机器人做三明治。
嗯,我常日会希望我的三明治里面的内容要丰富一些,但这个三明治的制作还算是个好开端。

AI 与人类互动

在 5.4 亿年前的原始海洋中,瞥见和感知环境的能力引发了寒武编年夜爆炸与其他生命形式互动。
本日,那束光开始照亮数字思维,就像曾经照亮我们先人的思维一样。
空间智能技能让机器能够相互交互,与人类交互,以及与 3D 天下交互,无论是真实的还是虚构的。
随着这个未来的形态逐渐显现,我们可以设想,它会对很多生命产生深远的影响。

医疗康健运用

就拿医疗康健来说。
过去十年里,我的实验室已迈出了主要的一步,在将 AI 技能运用于影响病人康复和医护职员疲倦问题方面。
我和我的学生们,斯坦福医学院的同事,以及互助的医院一起,正在试点智能传感器,这些设备可以检测到年夜夫是否在进入病人房间时精确洗手,可以跟踪手术中的东西,或者在病人身体处于危险,比如跌倒时,及时提醒照顾护士团队。

我们认为这些技能是一种环境智能的形式,这些额外的“眼睛”可以产生改变。
但我更希望看到更多对患者,年夜夫和通知者互动的帮助,他们也急迫须要更多的“手”。
想象一下,有自动化机器人运送医疗物资,这样照顾护士职员就能有更多高质量的韶光陪伴病人。
或者,增强现实技能勾引外科年夜夫进行更安全、更高效、更少侵入性的手术。

想象一下,那些严重瘫痪的病人能够用他们的思想去掌握机器人。
没错,便是用脑波,这样他们就能做到那些我们认为天经地义的日常任务。
你现在实在已经初见未来的一角。
在我实验室的这个试点研究中,你可以在视频中看到,一个机器人手臂正在做日本的壽喜燒饭。
这个过程完备是通过大脑电旗子暗记掌握的,这些旗子暗记非侵入式地通过 EEG 帽子网络,而无需在人的大脑中植入芯片或电极。
这全体机器人的行动都是通过远程大脑掌握完成的。

结语

在五亿年前,视觉的涌现不仅将阴郁的天下照亮,也开启了一个深远的进化过程,这是动物天下中智能的发展。
人工智能在过去的十年中取得的惊人进步同样令人震荡。
但是,真正的数字寒武编年夜爆发只有在打算机和机器人都发展出我们所有人所拥有的空间智能时,才能实现其最大的可能性。

现在是时候让我们的数字伙伴学会如何理解并与这个我们称之为家的三维空间进行互动,以及为我们大家创造许多新的天下去探索了。
实现这个未来的道路并非平坦,须要我们共同努力,发展始终以人为核心的技能。
如果我们做得恰当,那么由空间智能驱动的电脑和机器人不仅将成为实用的工具,更能作为我们值得相信的伙伴,它们能提升我们的效率,丰富我们的人性,尊重每个人的肃静,同时提升我们的整体繁荣。

我最期待的未来,是 AI 变得更具洞察力、更加空间感知,与我们一同知足好奇心,追求更好的办法,以创造一个更美好的天下。

感激。