数据和机器学习息息相关,数据的数量和质量也影响了机器学习模型的利用,圣彼得堡斯捷克洛夫数学研究所的Sergey Nikolenko就谈论了机器学习中数据问题。
在第一篇文章中,Sergey谈论了标记数据集的界线。https://synthesis.ai/2020/03/23/the-data-problem-i-problem-and-plan/
在第二篇文章中,Sergey谈论了一种避免巨额标签本钱的方法:利用one-shot和 zero-shot学习。https://synthesis.ai/2020/03/30/the-data-problem-ii-one-shot-and-zero-shot-learning/
这一篇是第三篇,谈论的是根本没有数据的机器学习类型:强化学习。
有趣的是,某些类型的机器学习根本不须要任何外部数据,更不用说标记数据了,常日的想法是他们能够为自己天生数据。
使无数据机器学习成为可能的紧张领域是强化学习,智能体在交互式环境中进行学习,从环境中得到实行操作的反馈。常日,强化学习架构包括将环境状态处理为特色的特色提取部分,和将特色转换为实行操作并将环境中获取的褒奖转换为权重更新的深度学习智能体。
当然,在这篇简短的博客文章中不可能对诸如强化学习之类的广泛而有趣的领域进行详细解释。因此,在连续本文的重点之前,我只想提一提,很长一段韶光以来,深度学习是一个非常不屈常的机器学习领域,由于强化学习最好的入门书是20年前写的。
这便是著名的《强化学习:入门》(Reinforcement Learning:An Introduction),由理查德·S·萨顿(Richard S. Sutton)和安德鲁·巴托(Andrew G. Barto)撰写,于1998岁首年月次出版。它当然无法包含现在强化学习革命的任何内容。幸运的是,最近Sutton和Barto出版了他们的书的第二版。仍旧写得很好,可供初学者利用,但是现在它也包含了当代思想。
DeepMind的AlphaZero是强化学习的当代无数据方法的范例代表。他们最初的打破是AlphaGo,该模型击败了人类围棋顶级玩家之一李世石。在DeepBlue在国际象棋上击败Kasparov的很永劫光之后,专业级的围棋仍旧是打算机程序无法触及的,AlphaGo的成功乃至在2016年也是出乎猜想的。
李世石和AlphaGo之间的比赛成为近几年AI最受关注的事宜之一,被广泛认为是AI界在亚洲的“第一颗人造卫星Sputnik涌现时候”,即中国、日本和韩国意识到深度学习须要被负责对待的时候。
李世石(左下)赢得了个中一场比赛,因此只管当时他因输给AlphaGo而灰心丧气,但这已经是人类在对抗顶级AI的比赛中赢得的末了一场严明的围棋比赛。两年后,当天下排名第一的柯洁(右下)与升级的AlphaGo模型对战时,他承认了自己在任何时候都没有机会。
AlphaGo利用了很多标记数据:它具有利用大量专业游戏数据库的预演习步骤,而AlphaZero之以是得名,是由于它不须要演习数据:它仅从知道游戏规则开始,并通过自我游戏来得到最高成绩,实际上是通过非常大略的丢失函数与树形搜索相结合。
AlphaZero在围棋比赛中击败了AlphaGo及其更高版本,AlphaGo Zero,并在国际象棋比赛中击败了顶级象棋引擎之一Stockfish。
DeepMind 强化学习团队的最新成果MuZero乃至令人更加印象深刻。MuZero代表基于模型的强化学习,也便是说,它会在运行过程中构建环境模型,并且事先不理解游戏规则,必须从零开始学习。
例如,在国际象棋中,它不能实行一个犯规的移动,但可以在树搜索中考虑到它们,并且必须自学这些都是犯规的。伴随着这一额外的繁芜性,MuZero能够得到AlphaZero在国际象棋和日本象棋方面的技能,乃至在围棋中表现更好。最主要的是,相同的模型也可以运用于例如Atari环境中的打算机游戏(强化学习的标准基准)。
但是值得把稳的一个问题是,并非所有问题都可以用不须要数据的强化学习来办理。你可以用强化学习玩游戏,即预先知道所有规则的独立构造。但是,我们如何通过各种各样的可能场景以及这些场景的各个组成部分来办理自动驾驶?一种可能的办理方案是利用合成虚拟环境。
办理魔方问题:Dactyl的故事强化学习的紧张运用领域之一是机器人技能:一个机器学习模型是须要学习在真实的物理环境中如何实行的领域。从自动驾驶汽车到工业机器臂,这些环境由两个特性结合在一起。
我们不可能为机器人网络一个标记数据集:我们可以判断它是否成功完成了任务(这会有褒奖),但是我们没有一个数据集可以标注哪个“肌肉”可以“波折”以便能打乒乓球或驾驶无人机。这便是强化学习对付机器人技能如此主要的紧张缘故原由。在强化学习之前,通过办理最佳掌握问题来对机器人进行手工编程,但是事实证明,基于强化学习的办理方案要好得多,也更可靠。
同时,像AlphaZero一样直策应用强化学习是不可能的,由于机器人无法奢侈的花费数千年实际演习。因此,须要将合成虚拟环境用于机器人技能,使得数百万次演习事实上成为可能。
同样,在这篇博客文章中,我们不能指望涵盖与机器人虚拟环境有关的所有内容,我只讲一个故事:一个机动的机器人如何学会办理魔方问题的故事。
该机器人是OpenAI的产品,2019年,OpenAI还开拓了OpenAI Five,该模型在Dota2中击败了专业玩家,并且更早些时候他们发布了OpenAI Gym,这是强化学习模型的紧张测试环境。
Dactyl便是我们正在评论辩论的机器人,它是OpenAI中一项长期的项目,始于2016年。第一个重大成果是在2018年,当时他们的机器人手学习了机动操作的根本知识。特殊地他们学会了找到带有字母的块并将其旋转,以使目标字母面向摄像头:
这已经是一个了不起的造诣,对我们来说,紧张要点是他们没有利用任何域适配技能:他们完备在虚拟环境中演习机器人,并且在实际场景中险些可以无缝链接事情。
为了使其事情,必须运用域随机化(domain randomization),便是使合成数据只管即便多样化,以担保演习成功的模型是非常的可靠,可靠到以至于运行良好的环境分布也将涵盖现实天下。
OpenAI团队改变调节环境的许多参数,包括视觉参数、物理参数,例如立方体的大小和重量,表面和机器人枢纽关头上的摩擦系数,等等。这个是他们不同可视化示例之一:
通过这种域随机化,他们能够学习旋转模块,但是他们想办理魔方问题,以前的合成环境并未能成功完成此任务。利用合成数据时须要权衡:如果环境参数的差异太大,那么由于每次环境都太不同了,算法将很难取得任何进展。
因此,在他们接下来的一篇论文中,他们修正了合成环境,并使其随着韶光的推移变得越来越繁芜。也便是说,合成数据天生的参数(立方体的大小,摩擦力等)首先在较小的范围内随机分配,并且这些范围随着演习的进行而增长:
这一想法,OpenAI团队称为自动域随机化(ADR),是我们在Synthesis AI上追求的“关闭反馈回路”想法的一个示例:使在合成数据上演习的模型结果驱动天生新的合成数据。
请把稳,这只是朝这个方向迈出了多么小的一步:这里的反馈仅限于战胜给定阈值,从而触发了变动合成数据参数的作业的下一步,这显著改进了模型的结果。由此产生的机器手纵然对付从未涌如今合成环境中的滋扰动作也能保持稳定。
摩尔定律落入尘埃
那我们办理了机器学习中数据集的问题了吗?强化学习彷佛取得了精良的成绩,并且在没有标签数据的情形下或以建立合成环境的一次性用度方面保持了领先水平。不幸的是,这里还有另一个问题。
可能与短缺标记数据一样严重,这个问题是强化学习进一步发展所需的不断增长的打算量。为了学习下象棋和围棋,MuZero利用了1000个第三代Google TPU来仿照自玩游戏。
这本身并不能见告我们太多,但这里有一个来自OpenAI的有趣不雅观察,在2012年之前,演习最前辈的AI模型所需的打算资源基本上根据摩尔定律增长,每两年将打算需求增加一倍。但是随着深度学习的到来,2012-2019年顶级AI演习的打算资源均匀每3.4个月翻一番!
这是一个巨大的增长速率,并且显然它不可能永久持续下去,由于与摩尔定律比较,实际的硬件打算能力增长只是在放缓。AlphaZero论文包含两个实验,较小的一个据估计须要花费约300万美元才能以2019年的价格在Google Cloud上复制,而大的那个实验则须要3,000万美元以上。只管打算本钱不才降,但低落速率比AI所需的打算增长要慢得多。
因此,进一步发展AI的一种可能情形是,的确从理论上讲这种“蛮力”方法可能会使我们走得很远,乃至达到通用人工智能,但这将须要事实上我们全体系统无法达到的算力。
请把稳类似的情形在第二波人工神经网络的炒作中发生过,只管规模较小:80年代后期的研究职员对神经体系构造有很多很棒的想法(有CNN,RNN,强化学习等) ,但是数据和算力都不敷以支撑实现打破,因此神经网络被降级为“处理险些所有事情的第二好的方法”。
只管如此,目前强化学习代表着除了利用标记数据进行打算以外的另一种可行方法,如AlphaGo迅速发展为AlphaZero和MuZero的示例所示。
总结在本文中,我们谈论了一种战胜对不断增长的标记数据集需求的方法。在可以通过强化学习办理的问题中,常日的情形是或者该模型根本不须要标记的数据,或者须要在合成虚拟环境中进行一次性演习。但是,事实证明,强化学习的成功要付出巨大的打算本钱,乃至在不远的将来也可能无法连续进行。