量子位出品 | "大众年夜众号 QbitAI
“看起来就像小学生在玩地狱边疆。”
近日,谷歌DeepMind团队创造了一个自学跑酷的智能体,并且解锁了它在不同地形和障碍物下的跑酷姿势。除了画风喜感了点,演习效果看起来还是蛮好的。
简笔小人视频中的简笔小人彷佛彷佛在进行一场激烈的跑酷比赛,它的身型、周围的地形以及障碍物都是变革的。小人须要自学奔跑、跳跃、蹲伏等姿势,找到从A到B的最佳穿越办法。
研究职员授予了智能体一组虚拟传感器,传感器见告智能体有没有走歪,并勉励它提高。智能体须要根据传感器的指示自己探索和改动缺点,考试测验不同的通过方法。
这个智能体背后,是DeepMind团队在探索若何将强化学习运用在教智能体适应陌生且繁芜的环境。
这项研究成果也被同步揭橥到arXiv上,DeepMind将论文命名为《Emergence of Locomotion Behaviours in Rich Environments》,由Nicolas Heess, Dhruva TB, Srinivasan Sriram等12名DeepMind研究职员完成。
论文先容
一样平常来说,强化学习(Reinforcement Learning)让智能体在褒奖中直接学习繁芜行为。但在常日情形下,强化学习演习的运动非常薄弱,在陌生环境中很随意马虎崩溃,不知下一步应如何移动。
就像婴儿适应了家里的楼梯后,再把他放在电动扶梯上,他就不知如何是好了。
一样平常的强化学习须要研究职员仔细地设计很多特定的褒奖机制。
但DeepMind研究职员仅仅给予智能体一个褒奖行为,那便是提高。
他们用单一的褒奖机制合营丰富的环境,让智能体学习运动。运动行为对褒奖的设置非常敏感,但结果显示,智能体在各种环境中都表现良好。
也便是说,DeepMind的智能体不依赖多种褒奖,而是通过丰富的环境,如地形与障碍学习繁芜行为。
通过这类别致的可扩展策略梯度增强学习变体,智能体在没有明确环境褒奖勾引的情形下,也可以跑步、跳跃、蹲伏和转弯。
强化学习算法
为了使智能体在这些富有寻衅的环境中有效学习,必须有一个可靠的可拓展强化学习算法。因此,DeepMind用了几组方法组合完成了这项任务。
这项任务不仅须要基于强大的策略梯度算法,如相信域策略优化(TRPO)和近似策略优化(PPO)置信区间的参数更新,来确保稳定性。
其次,还要像广泛利用得A3C算法等干系方法一样,须要在很多并行智能实例和环境上分配打算。
末了,附上论文地址:
https://arxiv.org/pdf/1707.02286.pdf
【完】
一则关照
量子位读者5群开放申请,对人工智能感兴趣的朋友,可以添加量子位小助手的微信qbitbot2,申请入群,一起研讨人工智能。
其余,量子位大咖云集的自动驾驶技能群,仅收受接管研究自动驾驶干系领域的在校学生或一线工程师。申请办法:添加qbitbot2为好友,备注“自动驾驶”申请加入~
招聘
量子位正在招募编辑/等岗位,事情地点在北京中关村落。干系细节,请在"大众年夜众号对话界面,回答:“招聘”。