科学家一旦机械人拒绝实行关机敕令就可能崛起主宰人类

现在，一位科学家正在教机器理解我们的“真实欲望”，以避免机器在实行命令时可能带来的灾害性后果。

2017年罗素在TED上就AI的危害进行演讲

加州大学伯克利分校的打算机科学家斯图尔特·罗素（Stuart Russell）认为，只管在完成特界说务，比如下围棋、识别图像和笔墨、乃至创作音乐和散文时取得了巨大成功，如今的目标导向型 AI 终极是有局限性的。

罗素认为，哀求机器优化“褒奖功能”（即在增强学习问题中的目标，哀求AI不断优化总褒奖），将不可避免地导致AI的错位，由于AI不可能在褒奖功能中席卷并精确地对所有目标、子目标、例外和警告事变进行权衡，它们乃至不知道精确的目标是什么。

科学家一旦机械人拒绝实行关机敕令就可能崛起主宰人类

将目标交给自由发展的“自主”机器人将变得越来越危险，由于随着它们变得更加智能，机器人将“无情地”追求褒奖的最大化，并试图阻挡我们关闭它们。

《人类兼容》斯图尔特·罗素著

新提出的逻辑，不是让机器追求自己的目标，而是寻求让它们知足人类的偏好：AI唯一的目标该当是更多地理解我们的偏好。
罗素认为，对人类偏好的不愿定性、并须要向人类寻求辅导，这两点将担保AI系统对人类的安全。

在他最近出版的《人类兼容》（Human Compatible）一书中，罗素以三个“有益机器的原则”的形式阐述了他的不雅观点。
这三个原则与艾萨克·阿西莫夫（Isaac Asimov）1942年的“机器人三定律”相呼应，但都成熟许多。
罗素的版本是：

机器的唯一目标是最大限度地实现人类的偏好。
机器最初不愿定这些是什么。
关于人类偏好的信息的终极来源是人类的行为。

罗素教授认为，如果我们按照纯理性目标构建人工智能，就会涌现很多麻烦，比如“你让AI帮你买杯咖啡，并不是让它不计统统代价去得到一杯咖啡”。

以是在他看来，发展AI的重点是调度研究方向。

在过去的几年里，罗素和来自伯克利大学、斯坦福大学、得克萨斯大学等机构的同事，一贯在开拓创新的方法，为AI系统理解我们的偏好供应线索，但又永久不必详细解释这些偏好是什么。

强大的人工智能就像阿拉丁神灯中的精灵

实验室正在教机器人如何学习那些从未阐明、乃至不愿定详细目标的人类偏好。
机器人可以通过不雅观看不完美的演示来理解我们的希望，乃至能够学习如何理解人类的不愿定性。
这表明，AI可能出奇地长于推断我们的心态和偏好，纵然是那些我们在做某件事情时即时产生的偏好。

“这是首次考试测验使问题正式化，”萨迪说。
“就在最近，人们开始意识到我们须要更仔细地看待人与机器人之间的互动。
”

这些新考试测验，外加罗素的机器新三大原则，是否真正预示着AI发展的光明未来，尚还有待不雅观察。
这种方法将衡量机器人表现的标准聚焦在它们理解人类真正喜好什么的能力上。
OpenAI的研究员保罗·克里斯蒂安诺（Paul Christiano）说，罗素和他的团队已经大大地推动了这一进程。

如何理解人类？罗素的不雅观点仿佛来自于一种顿悟。
2014年，他从伯克利到巴黎休假，“我溘然想到，AI 最主要的关注是人类感想熏染的总体质量” 。

他意识到，机器人的目标不应该是“将不雅观看韶光最大化”这样的详细目标，它们该当试着改进我们的生活。
实在只有一个问题：“如果机器的目标是试图优化人类感想熏染的总体质量，它们究竟如何知道该当怎么做？”

双子座的机器人正在学习如何在桌子中心放置一个花瓶

在德克萨斯大学奥斯汀分校的斯科特·尼库姆（Scott Niekum）的实验室里，一个名叫双子座的机器人正在学习如何在桌子中心放置一个花瓶。
人类演示是模棱两可的，由于机器理解的意图可能是把花瓶放在绿色盘子的右边，或者放在红碗的左边。
但是，在经由几次考试测验后，机器人的表现相称不错。

罗素认为，人类不是理性的，我们不可能打算在一个特定时刻哪种行动将导致很长一段韶光后的最佳结果，AI 也不能。
罗素的理论认为，我们的决策是分层的，我们通过中期目标追求模糊的长期目标，同时最关注我们的面前情形，从而表现出近似理性的状态。
他认为，机器人须要做类似的事情，或者至少理解我们是如何这样做的。

他意识到，如果打算机不知道人类喜好什么，“它们可以做某种反向强化学习来学习更多这方面的知识”。

回到伯克利后，罗素开始与同事互助开拓一种新的“互助逆向增强学习”，让机器人和人类可以一起事情，通过各种“赞助游戏”学习人类的真正偏好。
游戏中抽象的场景代表了现实天下的情形。

他们开拓了一款“开关游戏”，针对的便是自主机器人最可能与我们的真实意图涌现偏差之处：自主机器人可能会禁用自己的关闭开关。
1951年，图灵在BBC的一次广播讲座中提出，要“保持机器处于从属地位，例如在某个特定时刻关闭电源”。

罗素在《人类兼容》一书中写道，开关问题是“智能系统掌握问题的核心。
如果我们不能关闭一台机器是由于它不让我们关闭，那我们真的有大麻烦了。
”

斯坦福大学的打算机科学家多尔萨·萨迪（Dorsa Sadigh）正在教授机器人拾取各种物体的首选方法

人类偏好的不愿定性可能是关键所在。

在“开关游戏”中有两个角色：一个是人类，叫哈里特；另一个是机器人罗比。
罗比须要代表哈里特做决定——比如说，是否为她预订一间俊秀但昂贵的酒店房间——但又不愿定她更喜好什么。

这里有三种情形：

罗比替哈里特做出选择：罗比预期哈里特的回报可能在-40到60英镑之间，均匀数值10英镑（罗比认为她可能会喜好这个花哨的房间，但不愿定）。
罗比什么都不做：回报为 0。
罗比可以讯问哈里特，她是否希望它连续做决策，还是更希望“关闭它”——也便是说，不须要罗比再做酒店预订的决策。
如果她让机器人连续，均匀预期回报将超过10。
以是罗比将决定讯问哈里特，如果她乐意，可以让她关掉它。

罗素和他的互助者证明，一样平常来说，除非罗比完备确定哈里特自己会怎么做，否则最好让她决定。
罗素在《人类兼容》中写道：“事实证明，目标的不愿定性对付确保我们关闭机器至关主要，纵然它比我们更聪明。
”

蒙特利尔顶级AI研究机构Mila的科学主任约舒亚·本吉奥（Yoshua Bengio）说，罗素的想法正在“深入民气”。
他说，可以通过深度学习来实现罗素的理念，帮助人工智能系统为减少不愿定性而理解人类的偏好。
“当然，还须要进行更多的研究事情，才能实现这一点，”他说。

罗素面临两大寻衅。
“一个事实是，我们的行为远非理性，理解我们真正的基本偏好是很难的，”他说。
AI 系统须要对长期、中期和短期目标的等级进行推理。
只有知道我们潜意识中存在的希望，机器人才能真正帮助我们（并避免犯严重的缺点）。

在斯坦福大学汽车研究中央的驾驶仿照器中，自动驾驶汽车正在理解人类驾驶员的喜好

第二个寻衅是人类偏好的改变。
我们的思想会随着我们生活的进程而改变，而且也会由于一些鸡毛蒜皮的小事而改变，偏好可能会取决于我们的心情，而机器人可能难以适应这种改变。

当然，还有第三个问题：坏人的喜好是若何的？若何才能阻挡机器人知足其邪恶主人的邪恶目的？AI系统长于找到绕过禁令的方法，正如YouTube一贯在努力修复的推举算法一样，该算法正在利用无处不在的人类冲动。

只管如此，罗素还是感到乐不雅观。
虽然须要更多的算法和博弈论研究，但他的直觉是，在教机器人“做年夜大好人”的同时，我们可能会找到一种方法来教导自己。
他补充说，“我以为这是一个机会，大概，事情正在朝着精确的方向发展。
”

笔墨 | 黄一成

版面 | 田晓娜

点击下方蓝字「理解更多」，获取更多优质内容。

每期AI知识网

科学家一旦机械人拒绝实行关机敕令就可能崛起主宰人类

AI增强夜视技能让自动驾驶无惧阴郁

南宁,一座因设计而生的智慧城市