猩猩学会玩我的世界方法竟和GPT4智能体相通

把稳，这位玩家正在闇练地玩着《我的天下》，ta游刃有余地进行着网络零食和打碎积木的操作。

镜头一转，我们才创造：玩家的真实身份，竟然是一只猩猩！

没错，这是一项来自「猩猩行动操持（Ape Initiative）」的非人类生物神经网络实验。

而实验的主角Kanzi，是一只42岁的倭黑猩猩。

猩猩学会玩我的世界方法竟和GPT4智能体相通

经由演习后，它学会了各种技能，寻衅了村落庄、沙漠神殿、下界传送门等环境，一起通关到达终点。

而AI专家创造，猩猩演习师教会它学技能的过程，竟然跟人类教AI玩Minecraft有诸多类似之处，比如高下文强化学习、RLHF、模拟学习、课程学习等。

当猩猩学会玩《我的天下》

Kanzi是来自Ape Initiative的一只倭黑猩猩，它是天下上最聪明的猩猩之一，听得懂英语，还会利用触摸屏。

在Ape Initiative，Kanzi能打仗到各种电子触摸屏，这或许为它快速上手《我的天下》打好了根本。

人们第一次向Kanzi展示《我的天下》时，它一坐到屏幕前就创造了绿色的箭头，然后用手指划向了这个目标物上。

学习三种技能

才不过几秒钟，Kanzi就创造了该若何在《我的天下》中移动。

随后，它还学会了网络褒奖。

每网络一个褒奖，它都会得到花生、葡萄、苹果之类的零食褒奖。

Kanzi的操作越来越娴熟。

它会分辨和目标箭头同样是绿色柱形的障碍物，在网络褒奖时绕开它们。

当然，Kanzi也会碰着难关。
它须要利用break工具击碎大的积木块，但这个操作，它此前从未见过。

眼看Kanzi卡住了，人类在阁下开始帮忙，指着所需的工具按钮。
然而Kanzi看完后仍旧没能领悟。

人类只好亲自上手，用工具敲碎了木块。
Kanzi看完后若有所思，在所有人期待的目光中，它也有样学样，点击按钮后击碎了木块。
人们瞬间爆发出欢呼。

现在，Kanzi的技能树已经集齐了两样：网络零食、打碎积木。

在学习岩穴技能的时候，事情职员创造，如果从试图击碎的木块上滑落，Kanzi就会直接走掉。
因此，人们为它特殊定制了一个任务——

在一个到处都是钻石墙的岩穴中击碎木块，来证明它节制了收藏和击碎的技能。

在岩穴里统统都很顺利，然而，Kanzi却碰着了一个问题：它在墙角被卡住了。
此时，就须要人类伸出援手。

终极，Kanzi到达了洞穴底部，击碎了末了一道墙。

人群爆发出欢呼，Kanzi也高兴得和事情职员击掌。

骗过人类

接下来，故意思的来了：事情职员约请了一位人类玩家，和Kanzi一起玩游戏，当然，他对付Kanzi的身份并不知情。

事情职员打算看一看，这位玩家会在多永劫光后意识到，和自己一起玩游戏的并不是人类。

开始，这位小哥只是以为，对方的移动速率慢到不可思议，

当Kanzi的画面被展现到面前，小哥直接被吓到后仰。

走出迷宫

之后再玩《我的天下》，Kanzi越战越勇。

每当Kanzi网络到一个褒奖，人们就会用欢呼的形式肯定它的行为，如果它失落败了，演习员也会用鼓掌和欢呼鼓励它连续进行游戏。

这时，它已经学会解锁地下迷宫的舆图：

击碎面前的障碍物：

找到紫水晶：

当Kanzi卡住的时候，它会出去散散心，拿回一根木棍放到自己阁下。

就算不幸失落败，Kanzi也会点击按钮，让自己重生。

末了一关，是一个充满分岔路的巨大迷宫。

由于迟迟无法走出迷宫，Kanzi焦躁起来，开始拿着树枝尖叫，或者气得把树枝折断。

终极，它让自己沉着下来连续闯关，走出了迷宫。

急速，掌声和欢呼声把Kanzi包围了。

看来，《我的天下》是被Kanzi这只倭黑猩猩玩明白了。

教猩猩和教AI的相似之处

看着一只倭黑猩猩闇练地玩着电子游戏，多少会有点让人以为有些荒诞和不可思议。

英伟达高等科学家Jim Fan对此评论道——

只管Kanzi和它的先人们生平从未见过《我的天下》，但它很快就适应了电子屏幕上显示的《我的天下》中的纹理和物理特性。

而这与它们一贯以来打仗和生活的自然环境截然不同。
这种泛化水平远远超出了现今为止最强大的视觉模型。

演习动物玩《我的天下》的技巧实质上与演习人工智能的原则是相同的：

- 基于高下文的强化学习：

每当Kanzi在游戏中达到标记的里程碑时，他就会得到一个水果或花生，勉励他连续遵照游戏中的规则。

- RLHF：

Kanzi并不理解人类的措辞，但它能看到演习职员为他加油打气，还会偶尔给出回应。
来自演习职员的欢呼给了Kanzi一个强烈的旗子暗记：它走在精确的道路上。

- 模拟学习：

演习员为Kanzi演示了如何完成任务之后，它就立即节制了干系操作的含义。
演示的效果远远超出比单独利用褒奖的策略。

- 课程学习（Curriculum learning）：

演习员和Kanzi从非常大略的环境开始，逐步教导Kanzi节制掌握技能。
末了，Kanzi能够穿越繁芜的洞穴、迷宫和下界。

不仅如此，即便是利用了类似的演习技巧，动物的视觉系统就能在极短的韶光内识别温柔应新的环境，而AI视觉模型则会花费更多的韶光和演习本钱，乃至常常难以达到空想效果。

我们再次陷入莫拉维克悖论（Moravec's paradox）的深渊：

人工智能与人类的能力表现相反。
在我们认为无需思考或作为本能的低级智能活动中（如感知和运动掌握），人工智能表现很糟糕。
但在须要推理、抽象的高等智能活动中（如逻辑推理和措辞理解），人工智能却很随意马虎超越人类。

这恰好对应了这个实验呈现的结果：

我们最好的人工智能（GPT-4）在理解措辞方面靠近人类水平，但在感知、识别方面远远掉队于动物。

网友：原来猩猩打游戏也会生气

Kanzi和LLMs都可以玩《我的天下》，但Kanzi的学习办法和LLMs之间存在着不可小觑的差异，我们要把稳这一点。

面对Kanzi精良的学习能力，网友们开始了恶搞。

有人预见6年往后的天下将成为猩球大战......

或者是猩猩喝可乐，融入人类社会......

乃至马老板也中枪了，被做成了「猴版」马斯克。

也有人说，Kanzi是第一个拥有游戏玩家愤怒的非人类，ta很满意。

「如果Kanzi有自己的游戏频道，我会老诚笃实看的。
」

「在玩游戏上，人类与倭黑猩猩没有太大差异。
我们都受到褒奖的勉励，以实行某些任务并完成目标，唯一的差异是褒奖的实际内容。
」

「在《我的天下》中，Kanzi 开采钻石的褒奖更即时、更原始（食品），而我们开采钻石的褒奖则更延迟且与游戏干系。
总之，有点猖獗。
」

先是GPT学会了玩《我的天下》，现在倭黑猩猩也可以玩了，这让人不禁开始期待能用上Neuralink的未来。

Jim Fan教AI智能体玩《我的天下》

在教AI玩Minecraft上，人类早已积累了许多前辈履历。

早在今年5月，Jim Fan团队就曾把英伟达的AI智能体接入GPT-4，做出了一个全新的AI智能体Voyager。

Voyager不仅性能完胜AutoGPT，而且还可以在游戏中进行全场景的终生学习！

它可以自主写代码独霸《我的天下》，完备无需人类插手。

可以说，Voyager涌现后，我们离通用人工智能AGI，又近了一步。

真·数字生命

接入GPT-4之后，Voyager根本不用人类操心，完备便是自学成才。

它不仅节制了挖掘、建房屋、网络、打猎这些基本的生存技能，还学会了自个进行开放式探索。

通过自我驱动，它不断扩充着自己的物品和装备，配备不同等级的盔甲，用盾牌格挡上海，用栅栏圈养动物。

大措辞模型的涌现，给构建具身智能体带来了全新的可能性。
由于基于LLM的智能体可以利用预演习模型中蕴含的天下知识，天生同等的行动操持或可实行策略。

Jim Fan：我们在BabyAGI/AutoGPT之前就有了这个想法，花了很多韶光找出最好的无梯度架构

而在智能体中引入GPT-4，就开启了一种全新的范式（靠代码实行「演习」，而非靠梯度低落），让智能体摆脱了无法终生学习的毛病。

OpenAI科学家Karpathy也对此盛赞：这是个用于高等技能的「无梯度架构」。
在这里，LLM就相称于是前额叶皮层，通过代码天生了较低级的mineflayer API。

3个关键组件

为了让Voyager成为有效的终生学习智能体，来自英伟达、加州理工学院等机构的团队提出了3个关键组件：

1. 一个迭代提示机制，能结合游戏反馈、实行缺点和自我验证来改进程序

2. 一个技能代码库，用来存储和检索繁芜行为

3. 一个自动教程，可以最大化智能体的探索

首先，Voyager会考试测验利用一个盛行的Minecraft JavaScript API（Mineflayer）来编写一个实现特定目标的程序。

游戏环境反馈和JavaScript实行缺点（如果有的话）会帮助GPT-4改进程序。

左：环境反馈。
GPT-4意识到在制作木棒之前还须要2块木板。

右：实行缺点。
GPT-4意识到它该当制作一把木斧，而不是一把「相思木」斧，由于Minecraft中并没有「相思木」斧。

通过供应智能体当前的状态和任务，GPT-4会见告程序是否完成了任务。

此外，如果任务失落败了，GPT-4还会提出批评，建议如何完成任务。

自我验证

其次，Voyager通过在向量数据库中存储成功的程序，逐步建立一个技能库。
每个程序可以通过其文档字符串的嵌入来检索。

繁芜的技能是通过组合大略的技能来合成的，这会使Voyager的能力随着韶光的推移迅速增长，并缓解灾害性遗忘。

上：添加技能。
每个技能都由其描述的嵌入索引，可以在将来的类似情形中检索。

下：检索技能。
当面对自动课程提出的新任务时，会进行查询并识别前5个干系技能。

第三，自动课程会根据智能体当前的技能水平和天下状态，提出得当的探索任务。

例如，如果它创造自己在沙漠而非森林中，就学习采集沙子和神仙掌，而不是铁。
课程是由GPT-4基于「创造尽可能多样化的东西」这个目标天生的。

自动课程

作为第一个由LLM驱动、可以终生学习的具身智能体，Voyager的演习过程和猩猩演习过程的相似之处，可以给我们许多启迪。

参考资料：

https://twitter.com/DrJimFan/status/1690041641514704896

每期AI知识网

猩猩学会玩我的世界方法竟和GPT4智能体相通

墨言教诲分享丨AI动态海报设计教程

运用photosho制作创意格子碎片分散效果