个中一个虚拟机器臂已经学会办理各种不同的难题——堆积木、摆放桌子、排列国际象棋棋子,并且每项任务不须要进行再演习
这统统通过与另一个机器臂对弈得以实现。
据理解,另一个机器臂经由演习后,会给原来的机器臂臂带来越来越难的寻衅。

这些机器人采取的是强化学习算法,即在不同情形下,通过试错来演习人工智能,并采纳不同行动来实现目标。
游戏包括在虚拟桌面上移动物体。
例如,通过以特定的办法排列物体,爱丽丝试图设置对鲍勃来说很难办理的谜题,而鲍勃会试图办理爱丽丝的谜题。
随着它们的学习,爱丽丝会设置更繁芜的谜题,而鲍勃也会越来越会解谜。

经由爱丽丝设置的积木谜题的演习后,鲍勃便可以通用于一系列任务,包括摆放桌子和排列象棋棋子。

常日在多重任务处理中,深度学习模型必须在任务间进行再演习。
例如,AlphaZero (一款棋类 AI,可以通过自我博弈来学习)会利用单一算法教自己下国际象棋、将棋和围棋——但每次只能下一盘棋。
例如,下国际象棋的时 AlphaZero 不能下围棋,下围棋时的 AlphaZero 不能下将棋。
因此,造出真正能同时处理多任务的机器,是走向更通用的人工智能道路上的一大未解难题。

OpenAI推出一对虚拟机械臂可经由进程互相演习变得更智能

演习 AI 同时实行多重任务时会碰着一个问题,即须要大量的例子。
OpenAI 则通过演习爱丽丝为鲍勃天生例子,用一个 AI 演习另一个 AI 来避免这个问题。
经由演习,爱丽丝学会了设定目标,比如建造一座积木塔,然后把它捡起来并加以平衡。
鲍勃学会了利用虚拟环境的属性,如通过摩擦力来抓取和旋转物体。

截至目前,虚拟现实的演习只在虚拟环境中进行,但 OpenAI 和其他机构的研究职员正在将虚拟环境中演习的模型转移到物理环境中,且越来越有转机。
据悉,仿照环境可以让 AI 在短韶光内处理大型数据集,然后研究职员会根据现实天下的环境再对其进行微调。

该团队的研究职员表示,他们的终极目标是演习这些机器臂去办理人类可能哀求它做的任何任务。
与 GPT-3 一样(GPT-3 是一个能以各种不同办法利用措辞的措辞模型),这些机器人手臂是 OpenAI 打造多任务人工智能整体目标的一部分,而利用一个 AI 来演习另一个 AI 大概是个中的关键所在。