怎么样,AI 拳击动画效果是不是和真人比赛神相似?
基于 AI 深度强化学习的拳击选手身体不仅拥有超高自由度,而且它还节制了格挡、退却撤退、摆拳等拳击基本动作。

Facebook 人工智能研究部门(FAIR)在机器学习领域,总能带来一些意想不到的成果,上面的演示正是它们在《Control Strategies for Physically Simulated Characters Performing Two-player Competitive Sports》(仿照人物进行双人竞技运动的掌握策略)一文中的部分演示片段。

论文地址:https://research.fb.com/wp-content/uploads/2021/06/Control-Strategies-for-Physically-Simulated-Characters-Performing-Two-player-Competitive-Sports.pdf
在这篇论文中,研究职员开拓了一个学习框架,通过物理仿照角色学习基本技能、学习回合级别的策略、深度强化学习的步骤方法,来仿照人们学习竞技体育的演习路线。
同时,它们还开拓了一个编码器-解码器构造的策略模型来让物理仿照角色进行演习学习,该构造包含一个自回归潜在变量和一个专家稠浊解码器。

为了展示框架的有效性,研究职员通过拳击和击剑两种运动,演示了物理仿照角色在框架学习到的掌握策略,这些策略可以天生战术行为,并且让所有动作看起来更自然。
1
论文概述
在双人竞技运动中,运动员常常在比赛中展示出高效的战术动作,如拳击和击剑。
但创建多人动画场景是一项巨大的寻衅,由于它不仅哀求每个人物模型都以自然的办法行事,而且还哀求它们彼此之间的互动在韶光和空间领域都是同步的,以显得自然。

相互浸染的密度越大,问题就越具有寻衅性,由于在相互浸染之间没有韶光“重置”。
利用物理仿照角色简化了问题的一部分,由于低层次的物理互动(如碰撞)是通过仿照自动天生的。
然而,由于学习包含比赛的一系列技能,人们还没有对不同技能的折衷进行深入研究,如刺拳、勾拳、等拳击级别的反击和压力战斗策略。
在竞技运动中利用仿照角色的一个关键寻衅是,须要学习基本技能和拳击级别的策略,以便它们能够精确地协同事情。
在这篇论文中,FAIR 磋商了演习掌握系统的技能,开拓了一个框架,为角色之间的互动天生掌握策略。
个中的人形机器人拥有超高自由度,并由枢纽关头力矩驱动。
研究职员阐明,他们的设计灵感源于现实天下。
对付大多数运动来说,人们首先是在没有对手的情形下学习基本技能,然后通过与对手竞争来学习如何结合和完善这些技能。
基于此,FAIR 模拟这两个过程,通过深度强化学习,让物理仿照角色学习基本技能和学习比赛级别的策略。
2
多智能体强化学习
如上文所述,物理模型角色不仅在前期会演习学习基本技能,后期还会通过竞技的办法来深度学习,这里就涉及到了一个多智能体相互学习的问题。
FAIR 的框架采取一组运动数据,个中包括双人竞技运动的基本技能作为输入,并天生两个物理仿照选手的掌握策略。
掌握策略许可玩家以精确的动作和韶光实行一系列基本技能,从而赢得比赛。
详细来看,研究职员首先会网络了一些动作数据,包括在没有对手的情形下进行这项运动的基本技能。
然后采取单智能体深度强化学习的方法对动作进行单一模拟策略的学习。
末了,将模拟策略转化为竞争策略,每个参与者通过带有竞争策略的多智能体深度强化学习来增强自己的策略。
为了有效地将模拟策略转换为竞争策略,FAIR 利用了一个由任务编码器(如下图绿色)和运动解码器(蓝色)组成的新策略模型,该任务编码器的输出以自回归的办法更新(灰色)。
纵然如此,在多智能体环境中采取动作捕捉依然存在不少巨大的难题。
当我们须要多个智能体之间密集和丰富的交互时,由于物理交互过程中的遮挡和奇妙运动,精确捕捉尤其困难。
基于此,FAIR 设计一种框架,用于捕捉动作数据。
首先用一个智能体进行动作捕获,并通过仿照和学习创建所需的竞争交互。
采取这种方法的动机来自于人们学习竞技运动的办法——新手玩家先模拟高手玩家的示范,学习基本技能,然后在与对手对战的过程中对所学的基本技能进行提炼和学习战术。
3
小结
在这篇论文中,FAIR 通过创建掌握模型,使得两个物理仿照角色进行竞技运动。
以拳击和击剑为例,只管这种方法产生了竞争性的匹配,但这个方法仍旧具有局限性。
首先,该系统须要相称数量的打算来天生可信的竞争模型。
随着环境中涉及的变量增加,可能产生的交互也会以指数办法增加,因此所需的元组数量也以类似的办法增加。
为了使框架运用到更多运动中,如篮球或足球,更多的样本数据是必要的。
这种打算繁芜性可以通过学习算法(如基于模型的 RL 算法)的打破来办理,或者网络更多的数据来勾引智能体之间的交互。
其次,FAIR 开拓的框架中有一个假设条件,即运动的个人技能可以由单个智能体节制,虽然该假设为角色在后期竞技中的学习做了一个铺垫,然而,在一些双人竞技运动中,这种假设并不成立。
例如,在摔跤中,一个玩家首先须要捉住另一个玩家的身体,并不断地利用打仗来得到分数,而这个中并不包含特殊的技能须要去学习。
末了,FAIR 的模型虽然能够天生相互竞争的两个动画角色,但动作表现的自然程度却取决于输入参考运动的质量。
例如,在拳击比赛中,专业运动员在比赛中表现出非常敏捷的动作,而仿照的运动员却移动得很慢。
研究职员认为,造成这种差异的紧张缘故原由是实验中利用的输入动作来自一个演习非常有限的拳击手。
虽然 FAIR 的这项研究并非真正成熟,仍有不少局限性,但它揭橥的该篇论文详细描述了自动天生多个拥有高自由度的动画角色模型,以及让它们深度学习和相互竞技的过程,是一篇十分具有 AI 前沿性子的参考文献。
从长期来看,这个研究方向旨在供应了一种仿照的办法,让人类能够通过掌握人工智能进行竞争/互动,在电脑游戏、商业电影和体育赛事中能开辟新的运用形式。

FAIR 演习 AI 玩拳击效果堪比真人比赛试探周旋爆头