例如马斯克在播客、推特上常常自称特斯拉的自动驾驶和机器人“天下第一”,但这样的话看多了,难免也有些审美疲倦。不过,前几天,Andrej Karpathy在No Priors播客中现身,透露了特斯拉在Optimus人形机器人和自动驾驶领域的一些鲜为人知的进展。
Karpathy曾追随马斯克,从OpenAI转战特斯拉,从无到有亲手打造了特斯拉的打算机视觉团队。
然而,随着团队逐渐壮大,他的角色也从技能专家转为管理者,这与他专注技能事情的初衷相违背。对付Karpathy来说,从头开始构建事物才是他热爱和善于的事情。因此,他不得不做出“困难的决定”,在团队发展到足够自主的同时遗憾地告别了特斯拉。
去年,Karpathy重返OpenAI,但不久后又由于相似的缘故原由离开。今年七月,他创立了自己的初创公司Eureka Labs,致力于将AI与教诲相结合。
Karpathy的离职推文:“离开OpenAI没有什么特殊缘故原由,操持开展个人项目,但请连续提出阴谋论由于那很有趣。”
只管如此,Karpathy对特斯拉的情绪依旧深厚。他在访谈中公开表示对特斯拉在AGI、机器人以及自动驾驶领域的讴歌,并透露了未来可能重返特斯拉的意愿。
在这期播客节目中,Karpathy不止分享了过去在特斯拉收成的有关自动驾驶和人形机器人的思考,还有他对Scaling Law和AI发展的理解以及对AI教诲的展望。
在谈到自动驾驶时,Karpathy回顾起自己十年前第一次体验Waymo的自动驾驶的经历,那时Waymo在街区的表现已经非常靠近完美。经由十年的发展,这项技能终于从demo演化成了真正的商业产品。
Karpathy认为现在的自动驾驶实在已经达到了类似AGI的水平,只是受限于技能和监管,环球范围内的全面遍及仍旧是个难题。
Karpathy还把Waymo和特斯拉做了比较,非常有信心地肯定了特斯拉的自动驾驶技能。他透露,自己刚体验了特斯拉的最新版本,感想熏染非常惊艳,对其表现非常满意。
在人形机器人方面,Karpathy提出了独特的不雅观点。他认为,汽车实质上便是一种机器人。他还提到,在特斯拉早期的Optimus人形机器人开拓中,汽车和机器人在硬件、工具以及研究职员方面基本都是共享的。
Karpathy特殊分享了对人形设计的思考,他认为保持人形设计是为了更好地集中研究,利用人类最熟习的姿态来帮助网络和处理数据,同时也使机器人更随意马虎融入人类社会。
至于更深层次的技能方面,Karpathy 谈到了对Scaling Law的理解。
虽然OpenAI以大参数模型而有名,曾引领了一段韶光的大参数模型风潮,但如今主流模型已经转向小参数设计。在Karpathy的Youtube账号,最近一条是三个月前重现GPT-2 124M参数的传授教化视频,时长4个多小时,这或许也间接反响出Karpathy对Scaling Law的不同意见。
Karpathy 指出,当前AI发展的的瓶颈已经不再是参数和神经网络,而假如数据集的规模和质量。未来的发展将更多依赖合成数据的天生,而合成数据的多样性和“熵”尤为主要。模型输出的多样性如果降落,会导致数据集失落去活力。
节目的末了,Karpathy回到了他目前专注的AI教诲领域。他相信在AI的帮助下,一对一个性化课程有着巨大的潜力和市场,并透露自己正在预备一门关于AI的课程,估量会在晚些时候上线。
完全播客视频可以点以下链接不雅观看:
https://www.youtube.com/watch?v=hM_h0UA7upI
AI科技评论摘取了部分播客内容,做了不改原意的精编处理:
自动驾驶
Sarah Guo:你曾在特斯拉领导自动驾驶部门,现在自动驾驶汽车已经可以上路。你认为当前技能处于什么水平?我们须要多永劫光才能看到技能的进一步提升或更广泛的遍及?
Andrej Karpathy:我在自动驾驶领域事情了大约五年,对这个领域非常理解。我以为我们现在的自动驾驶技能已经达到了类似AGI的水平。
本日的一些系统已经许可付用度户在城市中利用,尤其是在旧金山,这种情形非常普遍。我个人已经体验过很多次,这些系统真的很神奇,可以将你送到任何地方。
十年前,我第一次体验了Waymo的自动驾驶。当时,我的一位朋友在Waymo事情,他给我展示了一个demo。那时候,Waymo在街区内的驾驶已经非常靠近完美。
经由十年的发展,它终于从demo成为了付费产品,并且在城市范围内不断扩展。
Waymo自动驾驶汽车
Elad Gil:你以为自动驾驶技能的进展紧张受到监管还是技能的影响?你认为这项技能何时会真正成熟?
Andrej Karpathy:技能方面,演示和实际运用之间有很大差距。你在短韶光的演示中不会碰着他们在过去十年里处理的所有问题。
此外,监管成分也起了主要浸染。虽然我们在软件方面已经靠近实现AGI,但环球范围的遍及还远未实现。演示与环球化之间的差距很大。
虽然很多人认为Waymo领先于特斯拉,但我个人认为特斯拉在自动驾驶领域更具领先上风。虽然目前看起来可能不是这样,但我对特斯拉的自动驾驶项目非常看好。
特斯拉面临的软件问题比Waymo的硬件问题要随意马虎办理得多。特斯拉已经在环球范围内大规模支配了汽车,而Waymo还在努力实现这一目标。一旦特斯拉能够全面实现其技能,并成功支配这些车辆,将会是非常令人惊叹的。
我昨天刚试驾了最新版的特斯拉,觉得他们最近做了很多出色的改进。
Elad Gil:我最近也用过这个别系,觉得确实很棒。
Andrej Karpathy:的确如此。昨天它为我完成了一些非常出色的驾驶任务。我对团队的进展印象深刻。
我还是认为特斯拉面临的紧张问题是软件,而Waymo则紧张是硬件问题。目前,Waymo在这方面彷佛稍占上风。
不过,十年后我们再来看谁真正实现了规模化,并且从中获利,我相信特斯拉会保持领先。
Elad Gil:你认为办理软件问题的关键时候还远吗?正如你所说,很多汽车利用昂贵的激光雷达和传感器来支持软件系统。特斯拉的方法是只用摄像头,这样可以显著降落本钱和繁芜性,并能在多种车型上运用。你认为这种转变会在什么时候发生?
Andrej Karpathy:我希望在几年内能看到这种转变。
实际上,有趣的是,特斯拉在演习阶段利用了很多昂贵的传感器。虽然他们在实际支配中紧张依赖摄像头,但他们在演习时利用了激光雷达和其他传感器来构建舆图和网络数据。这种做法既聪明又有效,由于它利用了传感器的信息来优化软件。
我认为这种策略还没有被充分认识到,但它会非常有效。只管在演习阶段传感器非常有用,但在实际测试中,摄像头供应的信息已足够支持系统的运行。
Elad Gil:另一种转变是从启示式学习转向端到真个深度学习。你怎么看这个问题?
Andrej Karpathy:是的,特斯拉的策略一贯很明确。
最初,特斯拉系统中有很多C++代码,但现在神经网络已经接管了许多功能,C++代码的利用减少了。这表明神经网络逐渐接管了系统的各个部分,从处理图像到多图像预测,终极系统只需输出转向指令。
特斯拉在这方面做得很好。比较之下,Waymo考试测验了不同的方法,但彷佛没有完备实现他们的目标。由于Waymo对详细细节保密,我们不完备理解他们的做法,但我相信特斯拉的逐步推进方法是有效的。
未来,特斯拉的端到端系统可能完备依赖神经网络,通过视频流直接天生指令。
不过,实现这一目标须要韶光,由于要逐步建立系统并处理各种中间预测。纵然在端到端系统中,中间表征和特色检测器仍旧主要,它们可以简化终极系统的设计。
演习一个弘大的神经网络进行端到端驾驶时,监督旗子暗记不敷是一个寻衅。因此,中间层的表征和检测器能帮助办理这个问题,使端到端演习更可行。
只管我不是这个团队的一部分,我相信特斯拉通过大量的预演习可以逐步优化端到端系统。总体来说,特斯拉的逐步推进方法是合理且有效的。
人形机器人
Sarah Guo:你之前研究过特斯拉的人形机器人项目。我有很多问题,个中一个是,是否有技能或履历的转移?
Andrej Karpathy:险些所有东西都在转移,我以为很多人并没故意识到这一点。
实际上,汽车本身便是一种机器人。而我并不认为特斯拉是一家汽车公司,这种意见实在有些误导。特斯拉更像是一家机器人公司,尤其是在大规模生产机器人方面,由于规模化是个独立的变量。
他们不仅仅是在制造某一件产品,而是在制造生产这件产品的机器,这也是一种完备不同的能力。以是,特斯拉便是一家规模化的机器人公司。
从汽车到人形机器人之间的技能转移,实在并没有那么困难。
事实上,早期版本的机器人“擎天柱”一度以为自己是辆汽车,由于它利用了同样的打算机和摄像头。
非常有趣的是,我们在机器人上运行的是汽车的算法,而它却在办公室里四处移动,试图识别可驾驶的空间,但实际上它面对的是步辇儿空间。虽然有些细微的调度须要做,但基本上,它在开车的环境里运行,实际上只是在行走。
Sarah Guo:这么说的话,确实可以从一个机器人视角去思考这个问题。许多技能可以直接转移,只是短缺了一些驾驶干系的数据和掌握模块。
Andrej Karpathy:没错,确实会短缺一些关键的组件。
但另一件让我印象深刻的是,Optimus项目启动的速率非常快。当Elon宣告这个项目时,所有干系的工具、CAD模型、供应链管理等就迅速到位了。这让我意识到,特斯拉内部实在积累了大量制造机器人的专业知识。
所有这些工具实在是通用的,只是被从汽车项目中重新配置和调度了一下。你须要的硬件、规模化生产的工具,乃至是背后掌握这些工具的大脑,实在都差不多。
以是,不仅是技能网络的转移,还涉及到各种事情方法的转移。比如,标签团队的事情办法、折衷方法,以及全体项目团队的运作办法,这些都须要进行大量的转移和调度。
Elad Gil:你有没有想过人形机器人或类似技能的第一个实际运用领域是什么?
Andrej Karpathy:我认为,最初的运用领域该当是公司内部自己利用。我非常看好特斯拉,他们可能会采纳这种办法。
如果公司能意识到第一个客户是自己,那么可以在工厂内部进行项目孵化,处理如材料搬运等任务。这样一来,就可以避免与第三方签订繁芜的条约,省去法律上的麻烦。
在内部成功孵化之后,可以进入B2B市场,向拥有大型仓库的公司推广。这些公司须要处理材料搬运等任务,条约和安全方法也能就绪。
等到在多家公司内部成功运用后,才是进入B2C市场的机遇。我相信我们会看到B2C领域的机器人涌现,例如像Unitree这样的公司也在推出令人期待的机器人。
Unitree推出的G1机器人
Sarah Guo:我现在有一个G1机器人。
Andrej Karpathy:我也可能会考虑买一个。未来可能还会环绕这些平台形成一个生态系统,人们会基于这些平台进行开拓。
虽然从规模化的角度来看,这种方法是有前景的,但在初期阶段,紧张还是处理材料搬运任务,之后再逐步向更繁芜的高繁芜性任务(HKC)发展。
个中一个让我非常愉快的项目是“吹叶机寻衅”。我希望看到Optimus机器人能在街上像踮着脚尖一样小心翼翼地捡起每一片落叶,这样我们就不再须要那些噪音大的吹叶机了。
我以为这是一项很有前景的任务,也希望这是最早的运用之一。
Sarah Guo:我们可以聊聊人形机器人的设计逻辑吗?最大略的说法是:天下是为人类设计的,以是如果你制造一套硬件,最合理的做法便是让这个模型在这套硬件上完成越来越多的任务。另一方面,有人认为,人类并不是在所有任务中的最佳选择。你可以让它们更强壮、更大或者更小,那为什么意外验测验做一些超越人类能力的事情呢?你怎么理解这个问题?
Andrej Karpathy:我以为人们可能低估了每个平台的固定本钱的繁芜性。实际上,每个平台都有很高的固定本钱,因此集中化、让一个平台能够处理所有任务是非常故意义的。
此外,人形设计也很吸引人,由于人类可以轻松操作它,这在数据网络方面也非常有帮助。我认为这一点常常被忽略。
你提到的天下为人类设计的成分当然也很主要。我认为我们会看到一些人形平台的变体,但每个平台的固定本钱都是巨大的。
其余一个主要成分是多任务学习。我们希望有一个能够处理多种任务的单一神经网络,从中得到所有的智能和能力。
这也是措辞模型如此有趣的缘故原由之一,由于它们在统一的文本领域中处理多种任务,不同的问题之间共享知识,都结合在一个单一的神经网络中。
你须要这样的平台。希望为叶子捡拾网络的数据能对其他任务也有帮助。如果你为特界说务构建专用系统,就不能从其他任务中得到迁移学习的好处。
Sarah Guo:我听说G1的价格大约是3万美元,对吧?但彷佛很难在特定预算下制造出一个功能非常强大的仿人机器人。如果你想在轮子上装一个能干事的手臂,大概一开始用更便宜的方法来实现一个通用平台会更实际。
Andrej Karpathy:这个不雅观点很有道理。你可以在上面装一个轮子来替代脚。
我不愿定这种做法是否会降落机器人的效果,但我以为选择一个平台,让它在长期利用中表现出色是非常主要的。
其余,人形机器人也有一种生理上的上风,由于它们看起来更熟习,人们更随意马虎理解和互动。
不过,这也可能带来恐怖感,人们可能更喜好更抽象的设计。我不愿定是否会涌现某种“真正的怪物”,但这确实是一个有趣的问题。
Elad Gil:你认为实现这一未来技能里程碑还短缺什么?
Andrej Karpathy:我不愿定自己是否有一个完备清晰的视角来解答这个问题。
不过,有一个有趣的方面是,在人体形态的设计中,下半身可能须要模拟学习,由于它涉及大量的钟摆式掌握和类似的技能,而上半身则须要处理远程操作、数据网络和端到真个演习。因此,整体来看,这些系统之间的互动变得非常繁芜。
在初期阶段,我估量很多事情将依赖于远程操作,从地面开始模拟,这可能会在95%的情形下有效。
接下来,谈论人与机器人之间的比例时,人们可能会逐渐转变为机器人的监督者,而不是直接完成任务。这个过程将随着韶光推移逐步发生。
至于技能上的障碍,我不愿定是否有某一件详细的事情阻碍了我们。
我以为目前很多工具都已经可以利用。像Transformer这种技能就像是一种俏丽的组织构造,只须要将数据以精确的形式输入,然后进行演习、实验、支配和迭代。
这些过程确实繁琐,但我不清楚是否有单独的技能问题在阻碍我们的进展。
Scaling Law与“数据墙”
Sarah Guo:我们现在所处的状态是若何的?
Andrej Karpathy:我们目前的状态非常好。我以为大家可能还没有完备理解Transformer的真正神奇之处。它不仅仅是另一个普通的神经网络,而是一个非常通用且强大的网络架构。
举个例子,当人们评论辩论神经网络中的“Scaling Law”时,这个法则实际上在很大程度上是Transformer的特性。
在Transformer涌现之前,人们利用的是LSTM(是非期影象网络),将其层层堆叠,但却无法得到清晰的Scaling Law。LSTM的演习效果也不理想,而Transformer则彻底改变了这一点。它是第一个能够真正表示Scaling Law的架构,统统都变得更加合理。
可以说,Transformer就像是一个通用的“可微分打算机”(differentiable computer)。
你可以向它输入、输出大量数据,利用反向传播进行演习。它可以自我组织起来,完成任务。我认为这是我们在算法领域无意中创造的一个神奇征象。
个中当然有一些关键的创新,比如残差连接(residual connections)、层归一化(layer normalization)和把稳力机制(attention module)。
同时,它也避免了一些常见的饱和性非线性(如早期神经网络中的激活函数),由于这些会削弱梯度旗子暗记。于是,几项主要的创新组合在一起,形成了Transformer。
谷歌的论文展示了这一点,这种架构真正可以有效演习,而且你会创造它可以轻松实现Scaling Law。可以说,这是一项重大的打破。
Sarah Guo:觉得我们还没有真正达到发展的极限,我想谈论“数据墙”问题,以及未来一代产品的本钱和规模会有多高。你对此怎么看?
Andrej Karpathy:这正是我们现在面临的核心问题。我不认为神经网络的架构会阻碍我们进一步发展,至少它已经不是瓶颈了。
在前几代模型中,Transformer确实是一个瓶颈,但现在情形不同了。以是我们现在更多谈论的是:该利用什么丢失函数?数据集在哪里?这些问题逐渐成为了新的瓶颈。
实在,神经网络的构造已经比较成熟,很多公司和利用这项技能的人已经不再关注Transformer的架构创新。
比如,Llama发布的Transformer架构也没有太大变革,唯一的显著更新便是增加了“绳索位置编码”。其他方面的改进,像是一些小的调度,可能统共也只带来了3%旁边的性能提升。
以是,从架构角度看,过去五年里没有太多革命性的变革,大家现在已经把它视为天经地义,直策应用并进行演习。
现在,大部分的创新都集中在数据集和功能细节的优化上。这是目前行业内生动的谈论和改进领域。
Sarah Guo:对吧?但在数据获取方面也有很多辩论。当我们能够轻松获取互联网数据时,问题不大,但一旦这些数据不再可用,情形就繁芜了。比如,合成数据或者更昂贵的数据采集办法成为了现实中的寻衅。
Andrej Karpathy:是的,这确实是个好问题。现在,很多事情都在措辞模型(LMS)上进行。
而互联网数据并不是我们空想中的Transformer演习数据。它就像是一个“隔壁”,能让你走得很远,效果出乎猜想地好。
但说到底,互联网数据实质上便是一堆网页,而我们真正想要的,是更靠近人类大脑中的“内心独白”那种数据。
Sarah Guo:对,这正是我们的思路——捕捉大脑中的轨迹,思维的轨迹。
Andrej Karpathy:当你在办理问题时,你的大脑会产生一系列思维轨迹。如果我们能得到上亿条这样的数据,类似于AGI的想法,那我们就能取得很大进展。但目前我们还没有达到这个水平。
以是,现在很多事情都环绕着互联网数据展开。这些数据虽然不是完美的,但已经非常靠近,由于互联网上有足够的推理痕迹和丰富的知识,而Transformer的浸染便是让这些数据得以有效利用。
我认为,接下来很多事情将聚焦于如何将数据集重构为更类似于“内心独白”的格式。合成数据的天生在这方面能供应很大帮助。
有趣的是,当前的模型在很大程度上帮助我们构建下一代模型。它就像在攀登楼梯,一步步向前推进。
Elad Gil:你以为合成数据在这一过程中有多大的浸染?合成数据能带我们走多远?由于是的,每一代模型的演习都会帮助我们改进下一代模型,供应更多工具、数据标签,乃至天生部分合成数据。你认为这些合成数据片段的主要性有多大?
Andrej Karpathy:是的,我认为合成数据的确是我们进步的关键之一,但一个常见的问题是,模型在天生内容时可能涌现“坍塌”征象,输出变得单一。
比如,让ChatGPT讲笑话时,它可能只会重复三四个笑话,缺少足够的变革。这种“熵”降落征象表现在单个结果上并不明显,但从整体来看,模型的输出会失落去多样性和丰富性。
如果你没有保持这种“熵”——即数据的随机性和多样性——你就会得到一个贫瘠的数据集,失落去了原有的活力。这种问题在表面上不易察觉,但实际上它会极大影响模型的性能。
因此,在天生合成数据时,你必须非常小心,确保数据集中保留足够的熵。
有些人发布过虚拟人物数据集,里面有上亿个性化的背景资料,类似于虚构的人物档案。
比如“我是一个老师”或者“我是一个艺术家”,这类背景设定。通过这种办法,你不仅仅是在完成一个任务,还在逼迫模型探索更多可能的空间,从而增加了数据的多样性。
总的来说,我认为合成数据在未来会霸占非常主要的地位,我们不会面临数据枯竭的困境。但在利用时须要非常小心,确保数据集保持足够的丰富性和多样性。
Sarah Guo:你认为我们从这项研究中对人类认知理解了什么?比如,弄清楚我们推理的办法,是否真的能帮助我们更好地理解大脑的事情事理?
Andrej Karpathy:我会对这种类比保持谨慎。总体而言,这两者还是有很大差异的,但确实有一些相似之处。
举个例子,我以为在很多方面,Transformer比人脑更高效。它们之以是还不如人脑,紧张是由于数据问题——这算是一个大概的阐明。
比如,Transformer在影象序列方面比人类强多了。你给它一个序列,它可以在前后进行操作,记住并完玉成部序列。而人类,只看一遍是记不住的。
以是在某些方面,像Transformer这样的模型,尤其是在梯度优化上,可能频年夜脑还要有效。只管它们还不完美,但在很多认知任务上,我认为它们有很大的潜力。
Sarah Guo:只要有足够的数据输入,它们就会表现得更好。
Elad Gil:是的,这是打算机的范例上风,在某些运用上,它们比人类更善于。
Andrej Karpathy:没错,尤其在影象方面。人类大脑有很多限定,比如事情影象容量非常小。而Transformer有更大的事情影象,并且是更高效的学习者。
人类大脑在很多环境和生物限定下事情,比如人类没有类似于反向传播的机制,这本身就不直不雅观。人脑是一个繁芜的动态系统,受到很多约束。
而我们现在的AI系统在某些方面可能已经频年夜脑更好,只是还没达到大脑的整体水平。
人工智能与未来教诲
Sarah Guo:你离开了OpenAI,现在从事教诲事情。是什么让你对教诲如此热衷?
Andrej Karpathy:我一贯对学习和传授教化充满激情亲切。这不仅是我长期以来的兴趣,还由于我认为AI的目标不仅是自动化,更是授予人们更多能力。我希望AI能帮助人们提升自我,而不是仅仅取代事情。如果能有空想的课程和导师,人们的发展会更快。
Elad Gil:80年代的研究表明个性化辅导能提高成绩。AI要如何发挥浸染?初期可能会涌现什么产品?
Andrej Karpathy:我受到了这些研究的启示。
现在,我在考试测验建立一个类似的课程,希望它能像你想学习AI那样供应帮助。问题在于如何将这些课程扩展到环球80亿人,他们有不同的措辞和能力水平。
与每个人一对一的授课是不现实的。因此,我认为AI可以用来仿照精良的西席。
虽然现有的AI模型可能还不敷以创建完美的课程,但它们可以作为学生的前端,为他们阐明课程内容。老师将专注于设计课程内容,而AI则卖力与学生互动,支持多种措辞,并勾引他们完成学习过程。
Eureka Labs操持推出的第一门AI课程
Sarah Guo:我该当把这看作是类似于AI作为前真个经历吗?这种类比是否适用?
Andrej Karpathy:是的,我认为AI可以作为学生的前端,实际与学生互动并勾引他们完成课程,只是目前还没有完备实现。
随着韶光的推移和技能的进步,这种设置可以不断优化。很多公司可能对现有AI能力的理解还不足深入,导致他们构建的工具可能过于前瞻或不足实际,但AI在教诲中的潜力非常令人愉快。
Sarah Guo:我们还未完备利用好学习工具,你认为如果我们利用更多工具和课程,人类能否变得更好?
Andrej Karpathy :确实如此。我们还没有完备意识到可能性有多大。我认为有两个关键维度:一是环球化维度,希望每个人都能接管优质教诲;另一个是个体能力的提升。两者都非常有趣且令人愉快。
Elad Gil:一对一学习常日强调适应性,特殊是如何根据每个人的学习水平调度。你认为现在的AI能做到这一点吗,还是这还是未来的事?目前的AI紧张关注影响力和多措辞支持。
Andrej Karpathy:AI确实在翻译和处理材料方面非常善于,这些功能已经很强大。
但对付个性化适应性,AI现在还处于起步阶段。只管当前的模型在某种程度上能够根据背景进行调度,但真正高效的适应性还须要进一步发展。
例如,如果你对某个学科有背景,AI能够类比你已有的知识,这在教诲中会非常有用。虽然我们看到了一些进展,但真正的有效性还有待提高。雷峰网雷峰网
Elad Gil:适应性学习的关键是调度内容以匹配学习者的背景和能力水平。随着韶光推移,可以调度模型以适应学习者的优缺陷。你怎么看待这种情形?
Andrej Karpathy:目前,我们看到的更多是演示效果,而真正的产品还远未成熟。适应性学习在理论上靠近,但在实际运用中仍有很多寻衅。
Elad Gil:非常感谢,本日的谈论很精彩。