安波

新加坡南洋理工大学人工智能研究院

联席院长校长委员会讲席副教授

以下是安波副教授的演讲实录:

演讲实录丨安波副教授分布式人工智能进展与趋势

很荣幸得到这个机会和大家分享关于分布式人工智能进展和趋势的一些意见。
期望听完我的分享之后,大家能理解分布式人工智能是什么,为什么要care 这个领域,它最近有什么样的一些进展,以及未来可能会有什么样的一些寻衅。

过去这些年AI 的进展紧张表示在一些比较大略的场景。
比如,自然措辞处理是相比拟较静态的数据;或者围棋的博弈,只有两个player,并且所有对决策主要的信息都可以直接不雅观测到。
未来要考虑更加繁芜环境下的AI 系统或者一些运用,这个环境是不愿定的,乃至是完备open 的(open 意味着我们没有办法感知建模)。
其余这个环境里面有多个player,这些参与方之间是竞争的,我们采纳的策略是须要序贯的,同时须要进行分布式的优化。
这样繁芜的问题是分布式人工智能所研究的目标。

星际争霸是目前AI 领域最火的问题之一,比如DeepMind 一贯投入很大的精力在做,中国有很多初创公司也在做这方面的事情,我们很高兴看到,启元天下在一两个月之前北京的智源大会上,展示了他们最新的研究成果并击败了几位华人顶尖高手。
星际争霸是一个特殊繁芜的问题,包括环境的不愿定性和动态变革、多方的竞争、序惯的决策,完备表示了上面所讲的分布式人工智能所研究问题的特点。
分布式人工智能覆盖很多其他场景,如军事方面的、金融方面的,也包括中科大陈小平老师团队参与的机器人足球比赛。
这些问题相比拟较繁芜,有很多研究寻衅,尤其是我们的办理方案特殊须要考虑多个player 之间的竞争。

分布式AI 最近几年呈现出来的算法框架大致可以分为两类,一类是把传统的方案算法、算法博弈论,以及运筹学优化算法结合,办理大规模的优化或方案的问题,或者是博弈竞争的问题;其余一类算法基于强化学习,特殊是多智能体深度强化学习。

接下来我针对这两方面,讲一些成功的例子,以及我们在这上面做的一部分事情。
首先我讲一点关于很强竞争的AI 问题,这里须要用博弈论来剖析竞争交互。
把博弈论的思路运用到有竞争的AI 上,过去这几年有很多成功的例子。
比如德州扑克(简称“德扑”),这是阿尔法狗之后最成功的AI 系统,有很大反响。
德扑完备没用任何深度学习,是基于算法求解大规模博弈算法的进展。
比如,安全博弈论成功运用于很多领域的安全资源调度;还有现在谷歌、百度、Bing 他们的紧张收入来自于这些关联词拍卖,而关键词拍卖的成功依赖背后的拍卖机制设计。

下面大略先容一下德扑。
CMU 的Libratus 系统是基于他们十几年来在求解特殊大规模的博弈算法方面的积累,然后击败了最顶尖的人类德扑选手。
实在也有很多团队长期在做这些事情,比如Alberta 大学和DeepMind 都在考试测验深度学习来办理德扑问题,基于博弈的思路目前是最好的。
像阿尔法狗一样,如果能找到那个最优解肯定是最好的,就不用深度学习。
如果一些博弈,能够找到一个近似的均衡,肯定是最好的一个思路。

早期的德扑是针对两个人博弈的,只管能降服天下上最顶尖的选手,但是在商业上没有太大代价。
求解多人德扑是当前学术界的一个open 问题。
最近两年的初步进展把多人分成两个队,一个队只有一个人,其余一个队是N-1 个人。
我们在这方面也做了一些事情,提出的算法效率远远好过之条件出的所有算法。

以前我们做了很多安全博弈论方面的事情,在实质上希望帮助安全部门做安全资源的高效分配。
由于用户的分外性,以是算法必须要完备给出最优的解,或者有近似界的近似解。
传统的诸如遗传算法的启示式方法都不能用。
这一系列俊秀的研究,不仅有很多理论成果,更主要的是在全天下很多地方得到了真实运用,并且有很大影响。

对付涉及到多个竞争参与方的AI 问题,用算法博弈论是一个思路,刚才也展示了,希望这个思路能有很多很好的结果。
有其余一些问题,用算法博弈的思路没有办法找到一个好的解。
这几年有一个常日的做法,用强化学习来做,我在这里考试测验去阐明,在什么样的场景下,强化学习会是一个更好的选择?

当这个问题不能很好的建模,比如这个环境完备是open 的,不知道怎么model 它,就不能对它很好地进行求解。
运用算法博弈论的思路时,首先要对博弈问题进行建模,我们model 那些player的策略空间和效用函数等,当不能很好的model问题时,博弈求解的方法就不能事情;其次,当问题规模特殊大时,传统的算法也不能把最优的求出来。
如果问题很难近似或者没有一些分外的构造可以利用时,算法博弈论的思路也很难成功。

强化学习及多智能体强化学习是一个特殊热的话题,海内有很多团队做了很多很好的事情。
当然,现在还有很多寻衅,特殊是多智能体强化学习还处在起步阶段。

接下来展示几个最近做的一些事情。

我们做了电子商务平台的反作弊,并运用到电商平台上;还有电商平台组合推举问题。
比如,我们做了一个涉及电商平台多模块推举的问题,这些模块是完备不同的团队运营,不同的团队在决定该当推举什么样的东西没办法进行实时通信,以是我们研究了若何来实现这些模块之间的折衷,实现推举效果的最优化。

我们做了一些非常大规模的policy planning问题,比如政府要决定一个policy,这个policy会影响下面很多player 的行为选择,由于player数量很大并且交互繁芜,因此须要用到腹部是强化学习来办理这种特殊大规模的优化问题。
同时大规模分布式系统优化面临通信方面的约束,须要决定什么时候通信?和谁通信?以及通信什么样的内容?我们在这些方面也做了一些初步考试测验。

总之,现在有很多寻衅的问题须要分布式AI技能来办理,比如未来军事方面的运用,可能须要设计无人机及地面机器人的编队能够在陌生的环境实行特殊繁芜的任务。
异构的无人机编队要对环境进行感知、要进行协作,然后要和敌方进行对抗。
很显然,这样的环境下,优化必须是分布式的,如果由某个机器人来掌握全体编队,全体系统是不鲁棒的,同时通信的代价也特殊高。

现在分布式AI 已经有了很多有影响力的运用,但是我们看到更多急迫须要办理的运用问题,以及研究方面的寻衅,希望能有更多的人参与分布式人工智能方面的研究。

(本报告根据速记整理)