作者:Yonghyun Jeong等
机器之心编译
参与:李诗萌、Geek AI
对付广大星际争霸迷来说,舆图全开作弊代码「Black sheep wall」该当是再熟习不过了!
如何根据现有状态预测未知信息是博弈过程中举足轻重的一环。日前,韩国三星公司的研究职员在星际争霸游戏中,将预测战役迷雾背后的作战单位信息建模为了一个部分可不雅观察马尔科夫决策过程,并利用基于 GAN 的方法实现了当前性能最佳的战役迷雾去雾算法。
论文地址:https://arxiv.org/abs/2003.01927项目地址:https://github.com/TeamSAIDA/DefogGAN
本文提出了 DefogGAN,这是一种推断即时计策(Real-Time Strategy,RTS)游戏中战役迷雾后的隐蔽信息状态的天生式方法。给定一个部分可不雅观测的状态,DefogGAN 可以将游戏的去雾图像作为预测信息天生。这样的信息可以创造计策智能体。DefogGAN 是一种条件 GAN 的变体,它利用了金字塔重修丢失,从而在多个特色分辨率尺度上进行优化。本文利用一个大型专业的星际争霸录像数据集验证了 DefogGAN。结果表明 DefogGAN 可以预测敌方建筑物和作战单位,准确率与职业玩家相称,并且比当前最佳的去雾模型的性能更好。
AlphaGo 的成功为人工智能在游戏中的运用(Game AI)带来了极大的关注。通过深度强化学习演习的智能体可以在国际象棋、围棋和 Atari 等经典游戏中轻而易举地赛过人类。随着任务环境越来越繁芜,实时计策游戏(RTS)成为了一种评估最前辈的学习算法的办法。如今,Game AI 为机器学习带来了全新的机遇和寻衅。开拓 Game AI 的好处十分广泛,不仅限于游戏运用中。在科学中运用智能体(例如,在有机化学领域中预测的蛋白质折叠)和企业的商业做事(例如,天机器人)的探索,使 Game AI 正走向一个新的时期。
在本文中,作者提出的 DefogGAN 采取天生式方方法补全因战役迷雾造成的显示给玩家的不完备信息。本文利用星际争霸作为实验场景——这是一款 RTS 游戏,游戏中有三个均衡的种族供玩家选择,玩家要建立完备不同的游戏风格和计策。在发行逾二十年后,星际争霸依然是一款非常受欢迎的电子竞技游戏。为了实现让 Game AI 超越高水平人类玩家的艰巨目标,本文作者利用超过 30,000 场的职业玩家的游戏录像演习了 DefogGAN。在星际争霸中,这样的目标是很难实现的。由于星际争霸长期以来一贯广受欢迎,玩家们开拓出了各种各样的成熟的游戏策略,除此之外,在电竞现场和暴雪战网(Battle.net)中玩家们还广泛利用了微操技能。
图 1:DefogGAN 预测值和真实值的比较。友方和敌方单位在舆图(玄色)上分别用绿色和赤色表示。DefogGAN 预测出了不雅观察不到的敌方单位。
战役迷雾指在某个没有友方单位的区域中,不能得到视野和信息,这样的区域包括所有之前探索过但目前无人值守的区域。部分可不雅观察马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP)最适宜描述战役迷雾问题。一样平常而言,POMDP 为真实天下中大多数有大量未不雅观察到的变量的问题供应了一个实用的表达办法。对 Game AI 来说,办理部分可不雅观察问题是提升性能的关键所在。事实上,许多现有的设计智能 Game AI 的方法都会碰着部分可不雅观察问题。最近,天生模型被用来降落部分可不雅观察问题的不愿定性。利用天生模型的预测结果,智能体的性能得到了提升。然而,天生方法无法完备与顶尖的人类职业玩家的高水平侦察技能匹敌。
星际争霸为研究与 Game AI 干系的繁芜 POMDP 问题供应了一个绝佳的平台。本文作者利用天生对抗网络,建立了 DefogGAN,它可以根据天生的逼真信息准确预测隐蔽在战役迷雾中的对手的状态。根据履历,本文作者创造,GAN 比变分自编码器(Variational Autoencoder,VAE)天生的图像更逼真。为了天生去除战役迷雾的游戏状态,本文作者将原始的 GAN 天生器修正为编码器-解码器网络。
从事理上讲,DefogGAN 是条件 GAN 的变体。通过利用跳跃连接,DefogGAN 天生器利用根据编码器-解码器构造学习到的残差进行演习。除了 GAN 的对抗丢失,本文作者还设置了有雾和去雾游戏状态间的重修丢失,来强调单位位置和数量的回归。本文的贡献如下:
开拓了 DefogGAN,可以解析有战役迷雾的游戏状态,得到有用的得胜信息。DefogGAN 是最早的基于 GAN 处理星际争霸中的战役迷雾问题的方法;利用跳跃连接进行残差学习,在不引入任何循环构造的情形下,DefogGAN 以前馈的办法包含过去的信息(序列),更适用于实时利用的情形;本文作者在模型简化实验和其它设置(如针对提取出的游戏片段和当前最前辈的去雾策略进行测试)中,对 DefogGAN 进行了实证验证。本文涉及的数据集、源代码和预演习网络对公众年夜众开放,可以在线访问。
在 t 时候,DefogGAN 根据部分可不雅观察(有雾)状态,天生了完备的不雅观察(去雾)状态。在星际争霸中,完备不雅观察状态包括在给定时间下,所有友方和敌方单元的确切位置。图 2 展示了 DefogGAN 的架构。本文作者对当前的部分可不雅观察状态的输入打算得到的特色图进行求和池化。在过去的不雅观测结果的特色图进入天生器前,要和当前状态累积并拼接。本文作者用预测的可不雅观察状态和实际的完备不雅观察状态间的重修丢失和判别器的对抗丢失演习天生器。
图 2:DefogGAN 的架构概览。
DefogGAN 的天生器采取了 VGG 网络的风格。卷积核的大小固定为 33。当特色图大小减少一半时,卷积核的数量增加一倍。DefogGAN 没有利用任何空间池化层或全连接层,而是用了卷积层来保留从输入到输出的空间信息。
DefogGAN 的天生器包括编码器、解码器和通道组合层。编码器采取 323282 的输入,利用卷积神经网络(Convolutional Neural Networks,CNN)提取出隐蔽在战役迷雾中的语义特色。每个卷积层都用了批量归一化和改动线性单元(ReLU)来实现非线性转换。
解码器利用从语义上提取出的编码器特色天生预测数据。解码过程将数据重构为高维数据,再利用转置卷积运算完成推断。解码器产生的输出尺寸与输入相同。考虑到因初始通道尺寸大导致的学习速率大,我们没有利用像 ResNet 那么多的卷积层。
表 1:x¯_t 和 x˜_t 的稠浊矩阵。利用到的测试数据超过 10,000 帧,表中为均匀值。
表 1 总结了 DefogGAN 输入-输出的统计信息,包括部分可不雅观察状态 x¯_t、累积的部分可不雅观察状态 x˜_t,和真实值 y_t。均匀而言,在部分可不雅观察状态中可以看到 54% 的单位,在累积的部分可不雅观察状态中可以看到 83% 的单位。把稳,累积的部分可不雅观察状态造成了第一类型缺点(假阳性),由于累积状态包含此刻已经不再符合实际情形的、移动的单元之前的位置。在给定这样的输出空间时,去雾问题须要在可能的 67,584(323266)个空间中均匀选出 141 个空间。
图 4:预测结果的可视化。最左侧是累积的部分可不雅观察状态(x˜_t)。第二列是部分可不雅观察状态 x¯_t。第三列是 CED(当前最佳去雾器)的预测结果。4-7 列分别是 DCGAN、BEGAN、WGAN-GP 和 cWGAN 的天生结果。DefogGAN 的结果呈现在第八列,末了一列是真实值。行表示用于评估的录像。
表 4:DefogGAN 和其它模型的准确率比较结果。
图 4 中的可视化结果可以有效地阐明 DefogGAN 的预测性能。随机选择四组录像,给出每个模型预测的、去雾后的完备不雅观察状态。例如,在录像 4 中,在部分可不雅观察状态 x¯_t 的右下角看不到赤色的敌方单位。同时,在累积的部分可不雅观察状态 x˜_t 中只能看到敌方单位的子集。同时利用不雅观察结果和累积不雅观察结果,DefogGAN 可以天生的完备可不雅观察状态 y_t 看起来和真实值非常相似。CED 也天生相称可信的完全状态,但 DefogGAN 天生了更准确的结果。WGAN-GP 在没有重修丢失的情形下也天生了可信的完全状态,但有天生假阳性(低精度)结果的方向。cWGAN(一种利用了重修丢失的 WGAN-GP 变体)彷佛降落了假阳性率,但 DefogGAN 的预测结果仍旧更好。