机器之心编辑部

游戏中的人工智能所面临的技能、寻衅和机遇。

人机游戏有着悠久的历史,已经成为验证人工智能关键技能的主流。
图灵测试可以说是人类首次进行人机对抗测试,这引发了研究职员设计各种 AI 来寻衅职业人类玩家。
例如,1989 年研究者开拓了国际跳棋程序 Chinook,目标是击败天下冠军,1994 年 Chinook 打败了美国泰西跳棋棋王 Marion Tinsley。
在之后的韶光里,IBM 的深蓝在 1997 年击败国际象棋大师 Garry Kasparov,首创了国际象棋史上的新纪元。

近年来,我们见证了游戏 AI 的快速发展,从 Atari、AlphaGo、Libratus、OpenAI Five 到 AlphaStar 。
这些 AI 通过结合当代技能在某些游戏中击败了职业人类玩家,标志着决策智能领域的快速发展。

AI打王者星际争霸你还不懂背后技能这有一份游戏AI综述

AlphaStar(DeepMind 开拓的打算机程序) 和 OpenAI Five(美国人工智能研究和 OpenAI 开拓)分别在星际争霸和 Dota2 中达到了专业玩家水平。
现在看来,目前的技能可以处理非常繁芜的不完美信息游戏,特殊是在最近大火的王者光彩等游戏中的打破,它们都遵照了类似 AlphaStar 和 OpenAI Five 的框架。
我们不禁会问:人机游戏 AI 的未来趋势或寻衅是什么?来自中国科学院自动化研究以是及中国科学院大学的研究者撰文回顾了最近范例的人机游戏 AI,并试图通过对当前技能的深入剖析来回答这些问题。

论文地址:https://arxiv.org/pdf/2111.07631.pdf

详细而言,该研究统共调查了四种范例的游戏类型,即围棋棋盘游戏;纸牌游戏(德州扑克 HUNL、斗地主和麻将);第一人称射击类游戏 (FPS)(雷神之锤 III 竞技场);实时计策游戏 (RTS)(星际争霸、Dota2 和王者光彩) 。
上述游戏对应的 AI 包括 AlphaGo、AlphaGo Zero 、AlphaZero、Libratus、DeepStack、DouZero、Suphx、FTW、AlphaStar、OpenAI Five、JueWu 和 Commander。
图 1 为一个简短的概要:

本文调查的游戏以及 AI

总体而言:在第 2 节中,该研究描述了本文涵盖的游戏和利用的AI;第 3-6 节分别阐述了棋盘游戏、纸牌游戏、FPS 游戏和 RTS 游戏对应的 AI;在第 7 节总结并比较了各种游戏所利用的不同技能;在第 8 节展示了当前游戏 AI 面临的寻衅,这些寻衅可能是该领域未来的研究方向。
末了,第 9 节对论文进行了总结。

范例的游戏和 AI

下表提取了不同游戏寻衅智能决策的关键成分,如表 1 所示:

上表列出了不同游戏的优缺陷,我们须要根据不同的游戏类型,分配不同的 AI。
由于不同的游戏具有不同的特点,其办理方案也各不相同,因此研究者开拓了不同的学习策略来构建 AI 系统。
在本文中,AI 被进行不同的分配:AlphaGo、AlphaGo Zero、AlphaZero 用于棋盘游戏;Libratus、DeepStack、DouZero 和 Suphx 分别用于纸牌游戏 HUNL、斗地主和麻将;FTW 用于 FPS 游戏中的雷神之锤 III 竞技场;AlphaStar、Commander、OpenAI Five 和 JueWu 分别用于星际争霸、Dota2 和王者光彩。

不同游戏对应的 AI

棋盘游戏 AI

AlphaGo 系列由 AlphaGo、AlphaGo Zero 和 AlphaZeo 组成。
2015 年问世的 AlphaGo 以 5:0 击败欧洲围棋冠军樊麾,这是软件首次在全尺寸棋盘对职业棋手的比赛中取得这样的成绩。
之后,DeepMind 为 AlphaGo Zero 开拓了新的演习框架,事先无需专业的人类对抗数据,取得了卓越的表现。
AlphaZero,是一种通用强化学习算法。
AlphaGo 系列总结如图 2 所示:

AlphaGo 系列框架图

纸牌游戏 AI

纸牌游戏作为范例的不完美信息游戏,长期以来一贯是人工智能的寻衅。
DeepStack 和 Libratus 是在 HUNL 中击败职业扑克玩家的两个范例 AI 系统。
它们共享根本技能,即这两者在 CFR 理论上相似。
之后,研究职员专注于麻将和斗地主这一新的寻衅。
由微软亚洲研究院开拓的 Suphx 是第一个在麻将中赛过多数顶级人类玩家的人工智能系统。
DouZero 专为斗地主设计,这是一个有效的 AI 系统,在 Botzone 排行榜 344 个 AI 智能体中排名第一。
纸牌游戏 AI 的简要框架如下图所示:

纸牌游戏 AI 的简要框架

第一人称射击(FPS)游戏 AI

雷神之锤 III 竞技场是一款范例的 3D 多人第一人称视角电子游戏,个中两个对立的团队在室内或室外地图中相互对抗。
CTF 设置与当下多人电子游戏有很大不同。
更详细地说,CTF 中的智能体无法访问其他玩家的状态,此外,团队中的智能体无法相互通信,这样的环境是学习智能体进行通信温柔应零样本天生最优测试平台。
零样本意味着智能体进行协作或对抗不是经由演习而来的,可以是人类玩家和任意的 AI 智能体演习而来,仅基于像素和人类等游戏点作为智能体的输入,学习智能体 FTW 框架可以达到人类级性能。
游戏 CTF 的 FTW 框架如下图所示:

游戏 CTF 的 FTW 框架

RTS 游戏 AI

RTS(即时计策)游戏作为一种范例的电子游戏,多达数万人相互对战,RTS 常日被作为人机游戏的试验台。
此外,RTS 游戏常日环境繁芜,比以往游戏更能捕捉现实天下的实质,这种特性使得此类游戏更具适用性。
DeepMind 开拓的 AlphaStar 利用通用学习算法,在星际争霸的所有三个种族中都达到了大师级别,其性能超过 99.8% 的人类玩家(总数约 90000 名玩家)。
Commander 作为轻量级的打算版本,遵照 AlphaStar 相同的演习架构,利用更少的打算量级,并在现场赛事中击败两名特级高手。
OpenAI Five 旨在办理 Dota2 游戏,这是第一个在电子竞技游戏中击败天下冠军的 AI 系统。
作为与 Dota2 比较相似的电竞游戏,《王者光彩》面临的寻衅最为相似,觉悟成为第一个可以玩完全 RTS 游戏而不限定英雄池的 AI 系统。
范例 RTS 游戏的大略 AI 框架如下图所示:

一个范例 RTS 游戏的大略 AI 框架

寻衅和未来趋势

只管打算机游戏已经取得了很大的进步,但当前技能仍旧面临着诸多寻衅,例如大量依赖打算资源等,这将引发未来的研究。

大模型

如今,大模型,尤其是预演习大模型,正在从自然措辞处理发展到打算机图像处理,从单模态到多模态。
纵然在零样本设置中,这些模型也证明了其不才游任务的巨大潜力,这是探索通用人工智能的一大步。

OpenAI 开拓了 GPT-3,它拥有超过 1750 亿个参数,并在各种措辞干系任务中表现出良好的性能。
然而,游戏中的大模型基本没有,当前繁芜游戏的模型比那些参数多的大模型要小得多。
如表 2 所示,AlphaStar 和 OpenAI Five 分别只有 1.39 亿和 1.59 亿的参数:

考虑到大模型是对通用人工智能的一个比较好的探索,如何在游戏中为人工智能设计和演习大模型,可能会为那些时序决策领域供应新的办理方案。
为了进行这样的考试测验,该研究认为至少该当仔细考虑两个问题:

首先,游戏任务与自然措辞处理任务非常不同,因此如何明确演习目标是大模型的关键步骤;其次,由于游戏难易程度不同,如何设计得当的演习机制比较困难。
演习方法该当能够处理各种游戏并确保学习不会退化。

低资源 AI

为了在繁芜环境中演习专业级 AI,常日须要大量的打算资源。
从表 3 得出我们须要大量的资源投入来演习 AI。

我们不禁会问,是否可以在资源有限的情形下演习出专业级的人工智能。
一个直不雅观的想法是引入更多的人类知识来赞助学习,强化学习可以说是未来的一个发展方向。
另一方面,开拓出理论和易于打算的进化策略,将是低资源人工智能系统的关键一步。

评估

目前,对智能体的精确评估成为一个难题。
人机游戏常日采取基于得胜概率(对职业人类玩家)的评价标准,如表 4 所示。
但是,这种评价比较粗糙,尤其是在有限的非迁移游戏测试下。
如何为大多数游戏制订一个别系的评价标准是一个主要而开放的问题。

通过这篇文章,研究者希望初学者能够快速熟习游戏 AI 这个领域的技能、寻衅和机遇,并能启示在路上的研究职员进行更深入的研究。