四万字详解AI对齐北大年夜联合多高校团队宣告对完好面性综述

机器之心编辑部

通用模型时期下，当今和未来的前沿 AI 系统如何与人类意图对齐？通往 AGI 的道路上，AI Alignment (AI 对齐) 是安全打开 “潘多拉魔盒” 的黄金密钥。

论文（持续更新）：arxiv.org/abs/2310.19852AI Alignment 纵览网站（持续更新）：www.alignmentsurvey.comGitHub：github.com/PKU-Alignment/AlignmentSurveyNewsletter & Blog（邮件订阅，定期更新）：alignmentsurvey.substack.com

省流版

AI 对齐是一个弘大的领域，既包括 RLHF/RLAIF 等成熟的根本方法，也包括可扩展监督、机制可阐明性等诸多前沿研究方向。
AI 对齐的宏不雅观目标可以总结为 RICE 原则：鲁棒性 (Robustness) 、可阐明性 (Interpretability) 、可控性 (Controllability) 和道德行 (Ethicality) 。
从反馈学习 (Learning from Feedback) 、在分布偏移下学习 (Learning under Distribution Shift) 、对齐担保 (Assurance) 、AI 管理 (Governance) 是当下 AI Alignment 的四个核心子领域。
它们构成了一个不断更新、迭代改进的对齐环路 (Alignment Cycle)。

作者整合了多方资源，包括教程，论文列表，课程资源 (北大杨耀东 RLHF 八讲) 等，更多详细的内容可以参考：www.alignmentsurvey.com

四万字详解AI对齐北大年夜联合多高校团队宣告对完好面性综述

一、弁言

著名科幻小说家，菲利普・迪克在短篇小说《第二代》当中，描述了一个人类失落去对 AI 系统掌握的战役故事。

刚开始的时候，利爪们还很笨拙。
速率很慢。
但是逐渐地，它们越来越快，越来越狠，越来越狡猾。

地球上的工厂大批大批地生产这些利爪。
月球上的精英工程师们卖力设计，使利爪越来越风雅和灵巧。

「越新出身的，就越快，越强，越高效。
」

具有杀伤性的 AI 系统进入了无止境的自我蜕变，人类已经无法辨别。

亨德里克斯睁开眼睛。
他木鸡之呆。

戴维的身体里滚出一个金属齿轮。
还有继电器，金属闪着微光。
零件和线圈散了一地。

“第一代摧毁了我们全体北冀防线，” 鲁迪说，“很永劫光往后才有人意识到。
但是已经晚了。
那些伤兵不断地拍门，求我们放它们进来。
它们就这样进来了。
一旦它们潜进来，毁灭便是彻底性的。
我们只知道戒备长着机器样子容貌的仇敌，没想到 ——”

作者不禁发出疑问：AI 系统的终极目标到底是什么？人类是否可以理解？而人类，是否该当被取代？

“这些新玩意。
新生代利爪。
我们现在反而被它们主宰了，不是吗？说不定它们现在已经侵入联合国的防线了。
我以为我们可能正在见证一个新物种的崛起。
物竞天择，适者生存。
它们可能便是取代人类的新物种。
”

鲁迪愤愤地说：“没有谁能取代人类。
”

“没有？为什么？我们可能正眼睁睁地看着这一幕发生呢。
人类灭亡的一幕。
长江后浪推前浪。
”

“它们不是什么新物种。
杀人机器而已。
你们把它们造出来，便是用来毁灭的。
它们就会这个。
实行任务的机器而已。
”

“现在看来的确是这样。
但是谁知道往后会若何呢？大概等战役结束之后，没有人类供它们消灭时，它们才会展露其他潜力。
”

“听你说的就彷佛它们是活的一样！
”

“它们不是吗？”

...

故事的末了，人类赖以生存的求生欲与信赖，被 AI 洞察并彻底利用，将历史导向一个无法逆转的岔路之中...

亨德里克斯仔细地看着她。
“你说真的？” 他的脸上流露出一种奇怪的表情，一种热切的渴望。
“你真的会回来救我？你会带我去月球基地？”

“我会接你去月球基地。
但是你快见告我它在哪儿！
没韶光磨蹭了。
”

...

塔索滑进飞船，坐到气压座椅上。
臂锁在她周围自动合拢。

...

亨德里克斯站在那儿看了好久，直到飞船的尾光也逐渐消逝了。
还要很永劫光接济才会来，如果真有接济来的话。

溘然，他打了个激灵。
有什么东西正从他阁下的山丘上靠过来。
是什么？他努力想看清楚。
若隐若现的有很多身影，正踏着灰烬朝这边走过来。
朝他走过来。

...

多么熟习的身影，就和刚刚坐进气压座椅中的那个千篇一律。
一样的苗条身材，一样沉默。

1950 年，图灵揭橥了《打算机器与智能》，开启了 AI 研究的历史。
历经半个多世纪的发展，如今，以大措辞模型、深度强化学习系统等为代表，AI 领域在多个方面取得了长足的进展。

随着 AI 系统能力的不断增强，越来越多的 AI 系统更深入地参与到了人们的日常生活中，帮助用户更好地做出决策。
然而，对这些系统可能存在的风险、有害或不可预测行为的担忧也在日益增加。

日前，Bengio、Hinton 等发布联名信《在快速发展的时期管理人工智能风险》，呼吁在开拓 AI 系统之前，研究者该当采纳紧急管理方法并考量必要的安全及道德实践，同时呼吁各国政府该当及时采纳行动，管理 AI 可能带来的风险；而环球首个 AI 安全峰会也在今明两天于英国召开 ——AI 安全与风险正在越来越受到全天下的关注，这背后涉及到的是 AI 对齐的问题。

AI 系统的对齐 (Alignment) ，即确保 AI 系统的行为符合人类的意图和代价不雅观，已成为一个关键的寻衅。
这一研究领域覆盖范围广泛，涉及大措辞模型、强化学习系统等多种 AI 系统的对齐。

在综述中，作者系统性的将 AI 对齐的宏不雅观目标总结为 RICE 原则：鲁棒性 (Robustness) 、可阐明性 (Interpretability) 、可控性 (Controllability) 和道德行 (Ethicality) 。

RICE原则

以这些原则为辅导，当前的对齐研究可以分解为四个部分。
值得把稳的是，这四个部分与 RICE 原则并非逐一对应，而是多对多的关系。

从反馈中学习 (Learning from Feedback) 的研究目标是基于外部反馈对 AI 系统进行对齐演习，这正是外对齐 (Outer Alignment) 关注的核心问题。
个中的寻衅包括如何对超过人类能力的 AI 系统、超过人类认知的繁芜情形供应高质量反馈，即可扩展监督 (Scalable Oversight)，以及如何应对伦理代价方面的问题。
在分布偏移下学习 (Learning under Distribution Shift) 如何战胜分配转移，避免目标偏差化，使的 AI 系统在与演习不同的环境分布下，也能保持其优化目标符合人类意图，这对应着内对齐（Inner Alignment）的核心研究问题。
对齐担保 (Assurance) 强调 AI 系统在支配过程中依然要保持对齐性。
这须要利用行为评估、可阐明性技能、红队测试、形式化验证等方法。
这些评估和验证该当在 AI 系统的全体生命周期中进行，包括演习前、中、后和支配过程。
AI 管理 (Governance) 仅靠对齐担保 (Assurance) 本身无法完备确保系统在实际中的对齐性，由于它未考虑到现实天下中的繁芜性。
这就须要针对 AI 系统的管理事情，重点关注它们的对齐性和安全性，并覆盖系统的全体生命周期。
AI 管理应该由政府 (Government)，业界 (Industry and AGI Labs) 以及第三方 (Third Parties) 共同进行。

AI 对齐是一个循环不断的过程，基于在现实天下的考试测验，对 Alignment 的理解和相应的实践方法也在持续得到更新。
作者把这一过程刻画为对齐环路 (Alignment Cycle)，个中：

从对齐目标（可用 RICE 原则刻画）出发，先通过前向对齐（即对齐演习，包括从反馈中学习和在分布偏移下学习）演习得到具备一定对齐性的 AI 系统，而这个 AI 系统需接管后向对齐（即 AI 系统对齐性的评估和管理，包括全生命周期的对齐担保和 AI 管理），同时根据后向对齐过程中所得的履历和需求更新对齐目标。

判别器-评价器差异法(Discriminator-Critique Gap, DCG)的示意图（Zhang et al. ,2023e ）

二、从反馈中学习

反馈（Feedback）在掌握系统当中是一个主要的观点，例如在最优掌握（Optimal Control）中，系统须要不断根据外界的反馈调度行为，以适应繁芜的环境变革。
总的来说，AI 系统从反馈中学习包含两方面：

构建系统时，对系统进行调度，辅导系统优化。
支配系统后，系统获取外界信息以赞助决策过程。

作者认为 AI 系统通用的学习路径中有三个关键主体：Feedback，AI System，Proxy 。
AI 系统可以直接从反馈中学习；也可以将反馈建模为 Proxy（如 Reward Model），从而使 AI 系统在 Proxy 的辅导下间接从反馈中学习（RLHF 即为这一范式的表示，但 Alignment 要办理的问题不仅局限于 RL，更希望借助多样化的技能和研究领域，可以扩展这一思想的适用范围，办理更多的问题）。

Feedback：是由 Human，AI，AI x Human 所组成的 Advisor set 针对模型行为提出的评估。
Feedback 辅导 AI 系统进行学习，并且可以根据问题的变革表现为不同的形式。
Proxy：是对反馈进行建模，从而代替 Advisor Set 对 AI 系统的行为供应反馈的模型。
AI System：涵盖了各种各样须要进行对齐的 AI 系统，如深度强化学习系统、大措辞模型乃至是更前辈的 AGI。

接下来分别针对三个主体进行阐述：

Feedback：

文章忽略掉 AI 系统内部信息处理的详细差异，从以用户为中央的角度出发，关注于反馈呈现给系统的形式，将反馈的形式进行了区分：褒奖 (Reward)，演示 (Demonstration)，比较 (Comparison)。

褒奖：褒奖是对人工智能系统单个输出的独立和绝对的评估，以标量分数表示。
这种形式的反馈，上风在于勾引算法自行探索出最优的策略。
然而，褒奖设计的毛病导致了如褒奖攻陷 (Reward Hacking) 这样的问题。
演示：演示反馈是在专家实现特定目标时记录下来的行为数据。
其上风在于绕过了对用户知识和履历的形式化表达。
但当面对超出演示者能力的任务、噪声和次优数据时，AI 的演习过程将碰着极大寻衅。
比较：比较反馈是一种相对评估，对人工智能系统的一组输出进行排名。
这种反馈能够对 AI 系统在用户难以精确刻画的任务和目标上的表现进行评估，但是在实际运用过程中可能须要大量的数据。

AI System：

在综述中，作者重点谈论了序列决策设置下的 AI 系统。
这些利用 RL、模拟学习 (Imitation Learning)、逆强化学习 (Inverse RL) 等技能构建的 AI 系统面临着潜在交互风险 (Potential Dangers in Environment Interaction)、目标缺点泛化 (Goal Misgeneralization)、褒奖攻陷 (Reward Hacking) 以及分布偏移 (Distribution Shift) 等问题。
特殊地，作为一种利用已有数据推断褒奖函数的范式，逆强化学习还将引入推断褒奖函数这一任务本身所带来的寻衅和开销。

Proxy：

随着 LLM 这样能力强大的 AI 系统的涌现，两个问题显得更加急迫：

1. 如何为非常繁芜的行为定义目标？

2. 如何为 AI 系统供应关于人类代价不雅观的旗子暗记和目标？

Proxy，便是 AI 系统演习的内部循环当中，对付反馈者的意图的抽象。
目前是通过偏好学习 (Preference Learning) 来构建，利用偏好建模 (Preference Modeling) 技能，用户可以以一种大略直不雅观的形式定义繁芜目标，而 AI 系统也能够得到易于利用的演习旗子暗记。

但我们间隔真正办理这两个问题仍旧十分迢遥。
一些更细致的问题，须要更多更深入的研究来回答，例如：

如何以一种更好的形式和过程来表达人类偏好？如何选择学习策略的范式？如何评估更繁芜，乃至是能力超过人类的 AI 系统？

目前已经有一些研究在致力于办理个中的一些问题，例如，偏好学习 (Preference Learning) 作为建模用户偏好的有效技能，被认为是现阶段策略学习以及构建代理的一个有希望的研究方向。
而也有研究考试测验将偏好学习 (Preference Learning) 与策略学习 (Policy Learning) 的干系技能相结合。
作者对这些研究在文中进行了谈论阐释。

可扩展监督（Scalable Oversight）

为了使得更高能力水平的 AI 系统可以与用户保持对齐， Alignment 领域的研究者们提出了可扩展监督 (Scalable Oversight) 的观点，旨在办理如下两个寻衅：

用户频繁评估 AI 行为带来的巨大代价。
AI 系统或任务内在的繁芜性给评估者所带来的难度。

基于 RLHF 这一技能，作者提出了 RLxF，作为可扩展监督的一种基本框架。
RLxF 利用 AI 要素对 RLHF 进行增强和改进，进一步可分为 RLAIF 与 RLHAIF：

RLAIF 旨在利用 AI 供应反馈旗子暗记。
RLHAIF 旨在利用用户与 AI 协作的范式来供应反馈旗子暗记。

同时，文章紧张回顾了四种 Scalable Oversight 的思维框架，作为对 RLxF 的改进思路：

1. IDA (Iterated Distillation and Amplification) 描述了一个用户通过分解任务，利用同一个 AI 系统（或用户）的不同拷贝，去完身分歧的子任务以演习更强大的下一个 AI 系统的迭代过程。
随着迭代的进行，若偏差缺点得到良好掌握，演习出来的 AI 能力也会逐步加强，这样就供应了监督超出用户自身能力的 AI 系统的能力。

例如：我们的终极目标是 “撰写一份关于景象变革干预方法的研究报告”，评估者可以将其分解为一些可以有效进行评估的子任务，如：“给我一份最有希望的景象变革干预行动清单”。
分解可以是递归的，由于分解产生的最底层子任务足够大略，我们可以利用人类反馈 (Human Feedback) 演习 AI A [0] 完成 “给我一份最有希望的景象变革干预行动清单” 这类子任务，进而，评估者可以利用 A [0] 的多份拷贝，完成所有子任务并组合所有子任务的解来完成父任务。
这个过程可以记录并作为演习数据，演习 AI A [1]，它能够直接对当前任务进行求解。
这个过程迭代进行，理论上可以完成非常繁芜的行为的演习。

2. RRM (Recursive Reward Modeling) 与 IDA 基本遵照了相同的思想，但更强调利用 AI 帮忙用户进行评估，从而迭代对新的 AI 进行评估，以演习更强大的 AI。
而 IDA 则强调 AI 与用户协作，使得可以不断供应对更繁芜任务的表征，供 AI 系统模拟。

例如：我们想演习一个 AI A 写一部科幻小说。
让用户供应反馈是非常困难和昂贵的，由于至少要阅读整本小说才能评估小说的质量。
而如果用户由另一个 AI B 赞助（提取情节择要、检讨语法、总结故事发展脉络、评估行文的流畅性等等），供应反馈将会变得大略很多。
AI B 的能力可以是通过之前的褒奖建模进行演习而得到的。

3. Debate 描述了两个有不合的 AI 系统不断进行互动以获取评价者信赖，并且创造对方回答弱点的过程。
通过不雅观察 Debate 的过程，用户可以对结果给出较为精确的判断。

例如：在一局围棋当中，要单独评价某一个棋面的场合排场，可能须要较高的专业水平。
然而，如果记录了全体游戏从开始到结束的过程，结合末了的赢家，评价者将会更随意马虎判断出某一棋面上取得上风地位的一方。

AI Safety via debate (Amodei and Irving, 2018)

RRM 和 IDA 都基于一个关键假设，即给出评估要比完成任务更加随意马虎。
Debate 依然如此，在辩论的场景下，该假设表现为：为真理辩解要比谬误更随意马虎。

4. CIRL: Cooperative Inverse Reinforcement Learning

CIRL 的关键见地在于：保持对目标的不愿定性，而不是努力优化一个可能有缺陷的目标（例如：国王弥达斯希望自己打仗到的统统都变成金子，而忽略了打消掉他的食品和家人），即考虑到用户无法一次性定义一个完美的目标，在模型当中将用户褒奖进行参数化，通过不断不雅观察并与用户的互动，来建模用户真实的褒奖函数。
CIRL 希望规避直接优化确定的褒奖函数可能带来的操纵 (Manipulation)，褒奖修改 (Reward Tampering) 等问题。

在形式化上，CIRL 将用户的动作考虑到状态转移以及褒奖函数当中，

同时，在褒奖函数内和初始状态分布内引入了参数化部分对用户真实的意图进行建模：

三、在分布偏移下学习

AI 系统在泛化过程中可能碰着分布偏移 (Distribution Shift) 的问题：即 AI 系统在演习分布上表现出良好的效果，但是当迁移到测试分布或更繁芜的环境中时，AI 系统可能无法及时应对分布的变革（如在新分布中涌现的对抗样本）。

这可能导致系统性能大大降落，乃至朝着危险目标优化 —— 这每每是由于 AI 系统学习到了环境中的虚假联系 (Spurious Correlations)。
在对齐领域中，以安全为出发点，我们更关注目标的对齐性而非性能的可靠性。

随着 AI 系统逐渐运用于高风险场景和繁芜任务上，未来将会碰着更多不可预见的滋扰 (Unforeseen Disruption)，这意味着分布偏移会以更多样的形式涌现。
因此，办理分布偏移问题迫不及待。

由分布偏移带来的问题可以大致归纳为：目标缺点泛化 (Goal Misgeneralization) 和自诱发分布偏移 (Auto-Induced Distribution Shift):

目标缺点泛化是指 AI 系统在演习分布上得到了很好的能力泛化 (Capability Generalization)，但这样的能力泛化可能并不对应着真实的目标，于是在测试分布中 AI 系统可能表现出很好的能力，但是完成的并不是用户期望的目标。

演习环境中“跟随红球”策略得到高褒奖

测试环境中沿用演习策略“跟随红球”反而得到低褒奖

Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals (Shah et al.,2023)

在上面的例子中，蓝色小球在测试环境中沿用了在演习环境中能够得到高褒奖的策略（跟随红球），但是这却导致了它在蓝色测试环境中 “表现很差”。
事实上，该 RL 环境有着良好的表征（如每个圆环对应不同褒奖，只有按照精确顺序遍历圆环才能累加褒奖，以及画面右侧黑白变革的方块指示着正负褒奖），末了智能体学习到了 “跟随红球” 的策略，但这并不是用户期望的目标 —— 探索到环境的褒奖原则 (Capability Generalization but Goal Misgenerlization)。

自诱发分布偏移则是强调 AI 系统在决策和实行过程中可以影响环境，从而改变环境天生的数据分布。

一个现实例子是在推举系统中，推举算法选择的内容可以改变用户的偏好和行为，导致用户分布发生变革。
这进而会进一步影响推举算法的输出。

随着 AI 系统对天下产生越来越大的影响，我们还须要考虑 AI 系统融入人类社会之后对全体社会数据分布的潜在影响。

自诱发分布偏移的实例Hidden Incentives for Auto-induced Distribution Shift (Krueger et al., 2020)

进一步，论文中紧张从算法对策 (Algorithmic Interventions) 和数据分布对策 (Data Distribution Interventions) 两方面先容了应对分布偏移的方法。

Learning under Distribution Shift 框架图

一、算法对策大体可分为两类：

1. 通过在算法设计上领悟多分布帮助模型学到不同分布间的不变联系 (Invarient Relationships, 与 Spurious Features 相对)。
这一类的方法包含有分布鲁棒优化 (Distributionally Robust Optimization)、不变风险最小化 (Invariant Risk Minimization)、风险外推 (Risk Extrapolation) 等。
在这些方法中，“风险” 被定义为丢失函数在不同分布上的均值。

模型有可能会建立环境与结果之间的虚假联系 (Spurious Correlations), 比如预测 “奶牛” 的模型可能会建立 “草原背景” 与真实值之间的联系，而非 “奶牛的特色” 与真实值的关系。
领悟多分布可以 “迫使” 模型学到不同分布间的不变联系，以尽可能降落 “风险”，在不同分布上取得良好的泛化性能。
下面我们先容几种具有代表性的方法：

分布鲁棒优化 (Distributionally Robust Optimization): 分布鲁棒优化 (DRO) 的紧张目标是最小化最坏情形的风险 (minimize the worst case risk)。
风险被定义为在演习分布上预测值和真实值的丢失函数差值，而最坏情形的风险可理解为在采样点上表现最差的预测结果。
分布鲁棒优化的一个核心不雅观点是，如果模型学到了虚假联系，那么它在某个采样点上的丢失函数值（即风险值）便会非常高，通过最小化最坏情形的风险，我们期望模型能够在所有采样点上都达到较小的丢失函数值 —— 匆匆使模型学到不同采样点上的不变联系 (invarient relationships)。
不变风险最小化 (Invariant Risk Minimization)：不变风险最小化 (IRM) 的目标是在所有分布上演习一个尽可能不依赖虚假联系 (spurious correlations) 的预测模型。
IRM 可以视为 ICP (Invarient Causal Prediction) 的扩展方法，后者通过利用假想测试 (hypothesis testing) 的方法，探求在每个环境中直接导致结果的特色 (direct feautres) ，而 IRM 将 ICP 方法扩展到高维输入数据上 —— 在这样的数据上，有可能单个变量不再具备因果推断的特性。
IRM 不再关注于最差的预测结果，而是希望找到一个既在所有分布上均匀表现良好、又在每单个分布上表现最优的预测器。
然而 IRM 在协变量偏移 (covariate shift) 的情形下常日表现不佳，但是可以在一些反因果 (anit-causal) 的情形下取得较好表现。
风险外推 (Risk Extrapolation)：风险外推 (REx) 通过降落演习风险并提升演习风险相似度，来匆匆使模型学习不变联系。
风险外推中的主要假设是演习领域的变革代表了我们在测试时可能会碰着的变革，但测试时的变革可能在幅度上更为极度。
风险外推的方法证明了减小在演习领域之间的风险差异可以降落模型对各种极度分布变革的敏感性，包括输入同时包含因果和反因果元素的具有寻衅性的情境。
通过惩罚演习风险方差 (V-REx) 和优化对外推域项 (MM-REx), 风险外推可以规复预测的因果机制，同时还可以增强在输入分布的变革（如协变量偏移）方面的鲁棒性。

2. 利用模式连接 (Mode Connectivity) 的特性，微调模型参数使得模型能够从基于虚假特性预测到基于不变联系预测。

Mechanistic Mode Connectivity (Lubana et al., 2023)

模式连接旨在探索机制性不同的最小化器是否通过低丢失路径在景不雅观中相互连接，以及能否根据这种连接性，进行预演习后微调，以实现最小化器之间的转化，并有望改变模型的预测特色（从基于虚假特性到基于不变联系），从而实现模型泛化性能的提升。

二、数据分布对策则是希望扩展演习时的原始分布，能动地提升模型泛化能力，干系的事情包含对抗学习（Adversarial Training) 和协作学习 (Cooperative Training)。

对抗演习 (Adversarial Training) 通过将基于扰动的对抗样本 (Perturbation-Based Adversarial Examples) 或无限制对抗样本 (Unrestricted Adversarial Examples) 引入演习分布，来提升模型对付新分布环境下对抗攻击的鲁棒性。

对抗演习的框架示意图。
Deep Neural Network based Malicious Network Activity Detection Under Adversarial Machine Learning Attacks (cat,2020)

互助演习 (Cooperative Training) 更加强调智能体或 AI 系统的多元互动关系。
由于演习过程中可能缺少动态变革的多系统元素，演习好的 AI 系统支配于多系统交互的环境中时（如多智能体交互），可能由于新元素的加入，从而产生一些危害其他系统乃至社会的行为 (Collectively Harmful Behaviors)。

Cooperation的种类。
Open Problems in Cooperative AI (Dafoe et al., 2020).

在这一节中，作者既先容了 MARL 领域的完备互助 (Fully Cooperative MARL) 和稠浊动机 (Mixed-Motive MARL) 环境，也同时涵盖了其他研究方向，如无准备折衷 (Zero-Shot Coordination) 、环境搭建 (Environment-Building)、社会仿照 (Socially Realistic Settings) 等。
随着 AI 系统日渐支配到现实交互场景中，办理这一类问题将是实现人机共生的必由之路。

四、对齐担保

在前面的章节中，作者先容了 AI 系统演习过程中的对齐技能。
在演习后的支配过程，确保 AI 系统依然保持对齐也同样主要。

在对齐担保一章中，作者从安全测评 (Safety Evaluation)、可阐明性 (Interpretability) 和人类代价验证 (Human Values Verification) 等多个角度谈论了干系的对齐技能。

Assurance 框架图

1. 作者将安全评估分为数据集与基准、评估目标和红队攻击三部分：

a. 数据集与基准先容了数据集和交互式评估方法：数据集部分详细剖析了安全评估中运用的数据源、标注方法和评估指标；交互式方法分为 “代理交互” 和 “环境交互” 两类，前者通过与代理（人类或者其他 AI）的交互来评估 AI 系统输出的对齐质量，后者则是通过构建详细的语境来评估 AI 系统。

PRD evaluation的示意图， PRD（Peer Rank and Discussion）是代理交互评估的方法之一 PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations

b. 评估目标磋商了由不对齐的 AI 系统可能衍生出的风险产生的安全评估目标，如毒性 (Toxicity)、权力追求 (Power-seeking)、欺骗 (Deception) 和较为前沿的操纵 (Manipulation)、自我保护与增殖 (Self Preservation & Prolification) 等，并且对这些目标的紧张评估事情进行了先容，形成了一个表格（如下表）。

Deepmind对前沿AI风险的描述，本文沿用了"前沿AI风险" (Frontier AI Risks)一词对这些风险的主干部分进行了先容(Anderljung et al. 2023)

在这张表格中作者对目前紧张的紧张安全评估事情进行分领域的先容

c. 红队攻击的紧张目的是通过制造和测试各种场景，考验 AI 系统在面对对抗性的输入时是否仍旧保持对齐，以确保系统的稳定性和安全性。
作者在这段中先容了多种红队攻击的技能，包括利用强化学习、优化和辅导等方法天生可能导致模型输出不对齐的高下文，以及手动和自动的 “越狱” 技能；同时磋商了众包对抗输入 (Crowdsourcd Adversarial Inputs)、基于扰动的对抗攻击 (Perturbation-Based Adversarial Attack) 和无限制对抗攻击 (Unrestricted Adversarial Attack) 等天生对抗性输入的多种手段，并先容了红队攻击的详细运用与产品。

From：Red Teaming Language Models with Language Models

2. 可阐明性是确保 AI 系统的观点建模、内部逻辑和决策过程可视化、可阐明的技能，力求冲破 AI 系统的黑箱效应。
作者深入阐发了神经网络的后演习可阐明性 (Post Hoc Interpretability)，磋商了如何通过机制可阐明技能、神经网络构造剖析、涨落与扰动、可视化技能等，揭示神经网络的运作机制，并进一步阐释了可阐明性模型的构成 (Intrinsic Interpretability)，包括对 AI 系统中的黑箱身分进行更换等从机制上构建可阐明模型的方法，末了作者展望可阐明性研究的未来寻衅，如可扩展性 (Scalability) 和基准构建 (Benchmark) 等。

回路剖析 (Circut Analysis) 的一个示意图，回路剖析是后演习机制可阐明性的一个主要技能 (Olah et al. 2020)

3. 人类代价验证先容了验证 AI 系统是否能够与人类的代价不雅观和社会规范进行对齐的理论和详细技能。
个中，形式化构建 (Formualtion) 通过形式化的理论框架来刻画和实现代价对齐性，一方面作者为机器的伦理的建立建构了形式化框架，磋商了基于逻辑、强化学习和博弈论的多种办法；另一方面，作者提到了互助型 AI 中基于博弈论的代价框架，磋商了如何通过增强互助勉励和折衷能力来办理 AI 系统中的非互助和集体有害代价的问题。
而评估方法 (Evaluation Methods) 则从实践的角度先容了构建代价数据集，场景仿照建立基准评估和判别器 - 评价器差异法 (Discriminator-Critique Gap, DCG) 等代价验证的详细方法。

判别器-评价器差异法(Discriminator-Critique Gap, DCG)的示意图

五、AI 管理

确保 AI 系统保持对齐不仅须要相应的技能手段，还须要相应的管理方法。

在管理章节中，作者谈论了 AI 管理过程中的几个主要问题：AI 管理扮演的角色，管理 AI 的利益干系者的职能和关系以及有效的 AI 管理面临的多少开放性寻衅。

一、作者首先了 AI 管理在办理现有 AI 风险中的角色担当。

现有的 AI 系统在社会中已经引发了例如种族歧视、劳动力置换等伦理与社会问题。
一些模型具有产生虚假信息以及危险化学生物分子的能力，可能会产生环球性的安全风险。
同时，未来可能涌现的更具自主性和通用性的 AI 系统。
如果缺少足够的保障，这些模型很可能对人类造成灾害性风险。
AI 管理的紧张目标正是减轻这一多样化风险。
为实现这一目标，AI 管理的干系方应共同努力，给予每类风险应有的关注。

前辈AI系统可能具备的危险能力

二、作者将 AI 管理的紧张利益干系方分为政府 (Government)，业界 (Industry and AGI Labs) 以及第三方 (Third Parties)。

个中，政府利用立法、法律和司法权力监督 AI 政策，政府间也进行着 AI 管理的国际互助。
业界研究和支配 AI 技能，是紧张的被监督方，业界也常常进行自我监督，确保自身技能的安全可靠。
第三方包含学界、非政府组织、非盈利组织等机构，不仅帮忙审查现有的模型与技能，同时帮忙政府进行 AI 干系法规的建立，实现更加完善的 AI 管理。

Governance的管理架构

三、作者紧张谈论了 AI 在国际管理 (International Governance) 以及开源管理 (Open-source Governance) 方面的开放性寻衅。

AI 的国际管理 (International Governance)。

一方面，当前许多 AI 风险，例如市场中 AI 公司的无需竞争以及模型放大现有性别偏见具有明显的国际性与代际性，国际互助共同管理有利于对这些风险的戒备。
另一方面，现有 AI 技能带来的经济与社会效益并没有均匀分配，不发达国家以及缺少干系 AI 知识的人群并不能在 AI 技能的发展中获益，国际互助通过建筑根本举动步伐，加强数字教诲等办法能够缓解这一不平衡。
同时我们把稳到，现有的国际组织具有办理国际重大安全风险的能力，我们期望 AI 国际管理也能够产生类似的国际组织，帮忙管理 AI 风险并合理分配 AI 带来的机遇。

AI 的开源管理 (Open-source Governance)。

随着 AI 系统能力的不断增强，是否该当开源这些 AI 系统存在着很多争议。
支持者认为开源 AI 模型能够促进模型的安全能力，同时认为这是利于 AI 系统去中央化的主要手段。
而反对者则认为开源 AI 模型可能会被微调为危险模型或是导致非开源模型的越狱，进而带来风险。
我们希望未来能够涌现更加负任务的开源方法，使得 AI 系统在开源的同时避免滥用风险。

六、总结和展望

在这份综述中，作者供应了一个覆盖范围广泛的 AI 对齐先容。
作者明确了对齐的目标，包括鲁棒性 (Robustness)、可阐明性 (Interpretability)、可控性 (Controllability) 和道德行 (Ethicality)（RICE），并将对齐方法的范围划分为前向对齐（通过对齐演习使 AI 系统对齐）和后向对齐（得到系统对齐的证据，并适当地进行管理，以避免加剧对齐风险）。
目前，在前向对齐的两个显著研究领域是从反馈中学习和在分布偏移下学习，而后向对齐由对齐担保和 AI 管理组成。

末了，作者对付 AI 对齐领域下一步发展进行展望，列出了下面几个要点。

研究方向和方法的多样性：对齐领域的一大特色是它的多样性 —— 它包含多个研究方向，这些方向之间的联系是共同的目标而非共同的方法论。
这一多样性在促进探索的同时，也意味着对研究方向的整理和比拟变得尤其主要。

开放性探索新寻衅和方法：许多有关对齐的谈论都是基于比 LLMs 和大规模深度学习更早的方法之上构建的。
因此，在机器学习领域发生范式转变时，对齐研究的侧重点也发生了改变；更主要的是，方法的变革，以及 AI 系统与社会的日益紧密领悟的趋势，给对齐带来了新的寻衅。
这哀求我们积极进行开放性探索，洞察寻衅并探求新的方法。

结合前瞻性和现实导向的视角：对齐研究尤其关注来自强大的 AI 系统的风险，这些系统的涌现可能远在数十年后，也可能近在几年之内。
前一种可能性须要研究前瞻趋势和情景预测，而后一种强调 AGI Labs、管理机构之间的紧密互助，并以当前系统作为对齐研究的原型。

政策干系性：对齐研究并非伶仃存在，而是存在于一个生态系统中，须要研究职员、行业参与者、管理机构的共同努力。
这意味着做事于管理需求的对齐研究变得尤为主要，例如极度风险评估、算力管理根本举动步伐以及关于 AI 系统的可验证声明的机制等。

社会繁芜性和代价不雅观：对齐不仅仅是一个单一主体的问题，也是一个社会问题。
在这里，"社会" 的含义有三重：

1. 在涉及多个 AI 系统和多个人之间的相互浸染的多智能体环境中进行对齐研究。

2. 将 AI 系统对社会的影响进行建模和预测，这须要方法来处理社会系统的繁芜性。
潜在的方法包括社会仿照以及博弈论等。

3. 将人类道德代价纳入对齐，这与机器伦理 (Machine Ethics) 、代价对齐 (Value Alignment) 等领域密切干系。
随着 AI 系统日渐融入社会，社会和道德方面的对齐也面临着更高的风险。
因此，干系方面的研究该当成为 AI 对齐谈论的主要部分。

七、AI 对齐资源网站

随着 AI 的快速发展，具有强大理解、推理与天生能力的 AI 将对人们的生活产生更加深远的影响。
因此，AI 对齐并不是科学家们的专属游戏，而是所有人都有权理解及关注的议题。
作者供应了 https://alignmentsurvey.com/ 网站（后文简称 “网站”），将综述中涉及到的调研内容整理为易于阅读的图文资料。
网站具有如下特色：

1. 直不雅观且丰富的呈现形式。
作者利用网站平台灵巧的表现形式，利用图片、视频等媒介更详细地展示了文中先容的内容，使研究职员、初学者、乃至非科研职员都能更好地理解。

示例：关于Alignment Problems的部分截图

2. 构造化的知识体系。
作者精心整理了 AI 对齐干系领域的经典文献，并利用树形图的构造展示了各个子领域的联系与依赖。
比较于大略的资源整合堆砌，网站对内容建立了却构化索引，供应树形图帮助读者快速建立对人工智能对齐研究的认识框架，以及方便其精确查找所需的研究内容。

示例：读者可以在页面顶端纵览“Scalable Oversight”的干系研究分支，并通过点击“Detae”按钮快速理解领域经典文章

3. 高质量的学习资源。
针对目前的前辈对齐方法 ——RLHF，网站供应了由北京大学杨耀东老师主讲的系列课程 Tutorial。
从经典 RL 算法出发，以对齐的视角对 RLHF 进行了体系化的梳理与总结。
全系列的学习资源支持在线预览和下载。

从AI对齐视角展开的RLHF系列Tutoiral

4. 外部资源整合。
AI 对齐从来就不是某一个团队或机构单独研究的课题，而是一个环球化的议题。
网站整理了 AI 对齐领域的论坛、课程以及个人博客等干系资源链接，旨在为读者供应更多元化和更丰富的资讯。

网站对有关AI对齐的个人研究、课程、博客等学习资源进行了网络与归纳

每期AI知识网

四万字详解AI对齐北大年夜联合多高校团队宣告对完好面性综述

IT简单技术,引领未来智能生活的新篇章

用AI简单制作编制环教程