量子位 宣布 | "大众号 QbitAI

把超级马里奥玩成下面这样,算什么水平?

能流畅的行走在妖妖怪魅之间

能掐准食人花涌现的机遇

AI玩超级玛丽逆天操作一口气通关怪物障碍枪弹都不在话下

能机动的躲过烧火棍

能战胜各种变态的地形

从1-1到7-1,只要一条命,就能全部通过,而且操作险些没有迟疑,如行云流水一样平常。

别人玩得这么溜,你是不是只能被小乌龟、喷子弹的小怪物、上高下下的地形虐?

不过,这个玩游戏的不是人,是一只通过深度强化学习算法实现的AI。

异步上风演员评论家算法

这个算法已经开源,是2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中提到的算法的实现。

异步一步Q-Learning:每个线程与自己的环境副本交互,在每一步中计算,用共享的渐变目标网络Q-Learning丢失的梯度,就像DQN演习模型一样。

异步多步Q-Learning:在正视图中通过明确的打算多步返回来运行,由于基于动量的方法反向传播来演习神经网络时,用正视图更随意马虎一些。

异步上风演员评论家算法:这是超级马里奥AI的核心。
智能体中的两个部分,分别扮演演员和评论家,卖力创造和监督。

和前面的异步多步Q-Learning一样,演员和评论家在正视图中运行,用相同的多步返回组合来更新策略和代价函数。

演员就像一个小孩子一样,会探索天下,做各种事情。

评论家则类似于前面小演员的爸爸妈妈,卖力监督演员的举动,赞赏他做的好的地方,批评他做的不好的地方,见告自己孩子:你和其他演员(别人家的孩子)差在哪儿了。

因此,演员希望一贯能得到爸妈的赞赏,得到积极的反馈,就会根据爸妈的赞赏和批评不断改动自己的行为。

而对付异步上风演员评论家算法而言,则是为小演员供应了一所“学校”。
如果小演员只在家里学习,可能学到的东西更片面,而且学习速率也比较慢。
在异步上风演员评论家算法这所学校里,有“老师”和“同学”能让演员更快的学习,学到精确的知识。

游戏达人Viet Nguyen

末了,公布这个算法实现的是GitHub用户Viet Nguyen。

他是一名AI和机器人方向的硕士,毕业于慕尼黑工业大学,紧张研究自然措辞处理和打算机视觉。

现在,他是德国手游公司Popcore的一名数据科学家。
除了超级马里奥,他还研究过用Deep-Q-Learning演习AI玩Flappy Bird。

传送门

末了,这个项目已经开源了,发布者公布了代码和模型,针对超级马里奥的每一关都单独演习了模型,在RTX 2080上大概一关费了6~10个小时。

开源代码

https://github.com/vietnguyen91/Super-mario-bros-A3C-pytorch

论文原文

Asynchronous Methods for Deep Reinforcement Learning

Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu

https://arxiv.org/abs/1602.01783

— 完 —

诚挚招聘

量子位正在招募编辑/,事情地点在北京中关村落。
期待有才华、有激情亲切的同学加入我们!
干系细节,请在量子位"大众号(QbitAI)对话界面,回答“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技能和产品新动态