总部位于旧金山的OpenAI公司近日揭橥的一篇新论文提出,在儿童的“躲猫猫”游戏中演习模型,并在数以千万计的竞赛中使它们相互对抗,可导致模型自动发展出类似人类的行为,从而提高智力并改进后续行动的性能。
为什么选择躲猫猫?
该论文的第一作者、OpenAI研究员博文·贝克认为,躲猫猫当选为一个有趣的出发点,紧张是由于其规则很大略。所有游戏中的代理(Agent,也称智能体,指能自主活动的软件或硬件实体)都被仿照为球形工具,可实行3种类型的操作:导航、捉住并移动物体、锁定工具,且只能由该代理的队友解锁。
研究职员在仿照的、物理接地的环境中放置了1—3个“躲藏者”和1—3个“探求者”,房间的边界是静态墙。环境中还包括不同尺寸的可移动箱子和可移动坡道。
研究职员利用强化学习来演习游戏代理,并遵照大略的躲猫猫规则:隐蔽者成功躲过探求者的追逐,或是探求者成功找到躲藏者。
AI如何玩躲猫猫?
在经由数亿次的游戏后,AI代理经历了几个阶段的策略发展过程。
在初始阶段,躲藏者(蓝色)和探求者(赤色)通过在空间中移动而不操纵任何物体,制订了非常粗糙的躲避和追逐策略。
在经历2500万个回合后,游戏变得更加繁芜。躲藏者学会了移动和锁定在环境中的箱子和路障,以在自己周围建立堡垒,这样探求者就永久看不到它们了。不仅如此,他们还制订了折衷计策,例如相互通报物体,以加快建造堡垒的进程。
然而,在游戏进行了7500万回合之后,探求者创造了一个反策略。他们学会了在躲藏者的要塞阁下移动一个坡道,并用它来爬过墙壁。
作为回应,躲藏者学会了将坡道移入他们的房间,因此探求者无法用它来超越墙壁。
随着环境变得越来越繁芜,躲藏者学会了利用苗条箱子建造更强大的“堡垒”。虽然OpenAI认为这将是终极的策略,但在游戏进行到3.8亿回合时,探求者再次成功反击,找出一种方法来跳到一个盒子上并利用动力在它上面“冲浪”,超越墙壁进入堡垒。
在末了阶段,躲藏者学会在建造堡垒之前锁定所有箱子,以防止“箱子冲浪”。
研究职员将这些不同策略的演化称为“来自多智能体自动课程的紧急技能进展”。“自动课程”这一术语是今年由DeepMind创造的,适用于多个代理逐渐创造新任务以在特定环境中相互寻衅。OpenAI的研究职员认为,这个过程在自然选择方面具有相似之处。
这项研究为啥很主要?
鉴于躲猫猫相对大略的目标,通过竞争性自我游戏演习的多个代理学会了利用工具,并采取人类干系技能来得胜。OpenAI认为,这为未来的智能代理开拓和支配供应了一个有前景的研究方向。OpenAI正在开源其代码和环境,以鼓励在该领域进一步研究。
OpenAI的终极目标是构建能够在一个通用系统中实行多项任务的人工通用智能(AGI)。虽然可能会有不同的目标,但OpenAI正在大力投资由大规模打算能力实现的强化学习研究。OpenAI最近与微软签署了一份代价10亿美元的为期10年的打算条约。
躲猫猫游戏研究也引发了OpenAI,由于随着环境繁芜性的增加,游戏中的代理不断地通过新策略自我适应新的寻衅。贝克表示:“如果扩展像这样的流程,并将其放入更繁芜的环境中,那么你可能会得到足够繁芜的代理,以便为我们办理实际任务。”
寻衅在哪里?
游戏代理有时会表现出令人惊异的行为。例如,躲藏者试图完备逃离游戏区域,直到研究职员对此施加惩罚。
其他寻衅可能归因于仿照环境设计中的物理毛病。例如,躲藏者理解到,如果他们在拐角处向墙壁推动斜坡,斜坡将由于某种缘故原由穿过墙壁然后消逝。这种“作弊”解释了算法的安全性如何在机器学习中发挥关键浸染。研究职员说:“在它发生之前,你永久不会知道。这类系统总是存在毛病。我们所做的基本上是不雅观察,以便我们可以看到这种奇怪的事情发生,然后试着修复物理毛病。”(冯卫东)