协同进化强化学习(CERL)可以在类人、Hopper、Swimmer、HalfCheetah和Walker2D等基准测试中得到更好的性能。利用CERL方法,研究职员能够基于OpenAI的Humanoid基准测试使3D人形机器人直立行走。
这些成果在一定程度上是通过演习系统实现的,该系统探索了更多的强化学习演习环境,以寻求褒奖并完成特定的任务。
环境探索对付确保记录各种履历并考虑行动方案非常主要。研究职员在一篇阐明CERL事情事理的论文中说,与环境探索干系的问题已经涌现,特殊是在利用深度强化学习来完成具有寻衅性的现实任务越来越遍及的情形下。该论文写道,“神经进化将全体过程结合在一起,产生了一个超越任何个体学习者能力的学习者。”
CERL将基于策略梯度的强化学习和进化算法相结合,然后在每批或每一代演习系统中选择表现最佳的神经网络。这样,研究职员可以就可以利用最强大的神经网络来创建新一代的系统,并且可以将打算资源分配给实现最佳性能的算法。
CERL还结合了重放缓冲区,用于存储学习者在环境中的体验,以便创建单个重放缓冲区并在系统之间共享体验,从而实现比以前方法更高的样本效率。
当前,人工智能正在从多个方面授予机器人越来越多的能力,相信随着干系技能的不断增强,人形机器人的运用处景也将会大大拓展。