机器之心编辑部
腾讯 AI Lab「绝艺」团队提出了一套「对手建模」算法框架,在游戏场景中可针对当前对手动态智能切换策略。
当前业内有名的竞技游戏 AI,在与人对抗过程中每每采纳固定的策略,这可能会带来两方面的性能损耗:[1] 如果这个 “固定” 策略有漏洞并且一旦被人创造,那么这个漏洞就可以被一贯复现。换句话说,采纳固定策略的 AI 随意马虎被人“套路”。[2] 采纳固定策略的 AI 不能针对不同对手采纳不同策略来获取更高的收益。例如,在二人石头 - 剪刀 - 布游戏中,如 AI 能针对有出剪刀方向的对手多出石头,针对有出石头方向的对手多出布,那么理论上 AI 能有更高的性能上限。
对此,腾讯 AI Lab「绝艺」团队提出了一套 “对手建模” 算法框架,在游戏场景中可针对当前对手动态智能切换策略,实现“见招拆招”。该方法在理论上和实际针对不同对手的实验中都能取得更高的收益,干系事情已被机器学习顶会 ICML 2022 收录。
论文链接:https://proceedings.mlr.press/v162/fu22b.html
这项事情的核心在于如何在多智能体系统中对其他智能体不可不雅观察的隐变量(例如策略,喜好,目标,等)进行建模,推测,并在此根本上调度自己的决策。因此,该项工为难刁难其他干系领域也有一定的借鉴意义,如人机协作,智能交通,金融剖析等。尤其在人机协作环境中,如果 AI 能高效地推测人的习气、喜好和目标,将大幅提升协作效率。
该项目团队紧张从事棋牌类 AI「绝艺」干系研究。「绝艺」自 2016 年面世后,已四次夺得天下顶级围棋赛事冠军,包括 UEC 杯、AI 龙星战、腾讯天下人工智能围棋大赛、天下智能围棋公开赛等,并自 2018 年起无偿担当中国国家围棋队演习专用 AI。之前,团队在 1v1 麻将场景提出全新策略优化算法 ACH,已被 ICLR 2022 吸收。
方法简介
结合 Bandit 思想,本文作者提出一种新的对手建模框架:Greedy when Sure and Conservative when Uncertain(GSCU)。GSCU 总体构思在于:当针对对手能得到更高收益时,那么 AI 就采取一个实时打算的 “激进” 策略(Greedy Policy)来针对对手;反之,AI 采取一个离线打算好的,最坏情形最好的,“守旧”策略(Conservative Policy)。如下图所示,GSCU 包含两个离线演习模块,和一个在线测试模块。
离线演习模块一:对手策略 embedding 学习。该模块考试测验学习一个 variational embedding 空间来表征任何一个可能的对手策略。该方法详细采取 Conditional Variational Autoencoder (CVAE)的架构:
就像经典词向量方法 Word2Vec 可以提升后续各种 NLP 任务的效率, 我们的策略 embedding 学习方法 Policy2Emb 也有望提升所有须要对 policy 做表征的干系任务。
本文策略 embedding 学习方法 Policy2Emb 与经典词向量方法 Word2Vec 的一个对照
离线演习模块二:Conditional Reinforcement Learning (RL)。该模块考试测验学习一个 conditional 策略,对付给定的一个对手策略的 embedding z,可以得到一个针对该对手的策略:
在线测试模块:在线对手策略 embedding 估计,守旧 & 激进策略切换。该模块一方面考试测验在线估计当前对手的策略 embedding,另一方面基于 bandit 算法 EXP3 在固定的 “守旧” 策略和实时打算的 “激进” 策略两者之间动态切换:
同时,我们可以证明:[1] “激进”策略的对战效果有下限担保; [2] 比较不做对手建模(也便是采取一个 “固定” 策略),我们的对手建模方法 GSCU 不带来负浸染,并有很大可能带来正收益。
实验结果
在比拟主流方法的根本上,GSCU 在经典扑克游戏 Kuhn poker 和 particle 环境 Predator Prey 上验证了其优胜性:
不同方法应对不同未知对手的均匀性能和最差性能比拟
策略 embedding 学习算法 Policy2Emb 的实验结果:
Policy2Emb 得到的策略 embedding 空间(左)和 Kuhn poker 真实的策略参数空间(右)
GSCU 中 conditional RL 的学习效果:
基于 Policy2Emb 学习到的对手策略 embedding,conditional RL 学习到的针对性策略可以高效应对不同的对手
GSCU 的在线对手策略 embedding 估计效果:
A基于 Policy2Emb 学习到的 probabilistic decoder,GSCU 在策略 embedding 空间做 Bayesian inference 可以更好地估计对手策略。