上海人工智能实验室主任周伯文探索AI45°平衡律兼顾安然与机能

AI安全与性能可否兼得？演讲中，他提出一个技能主见：探索人工智能45°平衡律——Towards AI-45°Law，即AI安全优先，又能担保AI性能长期发展的技能体系。

以下为演讲全文：

尊敬的各位领导，各位高朋，大家上午好，非常荣幸在WAIC大会上、在上海，与大家分享人工智能安全的前沿技能话题，我想提出一个技能主见：探索人工智能45°平衡律——Towards AI-45°Law。

当前，以大模型为代表的天生式人工智能快速发展，但随着能力的不断提升，模型自身及其运用也带来了一系列潜在风险的顾虑。

上海人工智能实验室主任周伯文探索AI45°平衡律兼顾安然与机能

从"大众年夜众对AI风险的关注程度来看，首先是数据透露、滥用、隐私及版权干系的内容风险；其次是恶意利用带来假造、虚假信息等干系的利用风险；当然也诱发了偏见歧视等伦理干系问题；此外还有人担心：人工智能是否会对就业构造等社会系统性问题带来寻衅。
在一系列关于人工智能的科幻电影中，乃至涌现了AI失落控、人类损失自主权等设定。

这些由AI带来的风险已初露端倪，但更多的是潜在风险，戒备这些风险须要各界共同努力，须要科学社区做出更多贡献。

去年5月，国际上数百名AI科学家和"大众人物共同签署了一份公开信《Statement of AI Risk》，表达了对AI风险的担忧，并呼吁，该当像对待盛行病和核战役等其他大规模的风险一样，把戒备人工智能带来的风险作为环球优先事变。

涌现对这些风险担忧，根本缘故原由是我们目前的AI发展是失落衡的。

先让我们来看一下目前的AI发展趋势：在Transformer为代表的根本模型架构下，加以（大数据-大参数量与大打算）的尺度定律（Scaling Law），目前AI性能呈指数级增长。

与此形成比拟的是，在AI安全维度范例的技能，如：红队测试、安全标识、安全护栏与评估丈量等，呈现零散化、碎片化，且后置性的特性。

最近的一些对齐技能兼顾了性能和安全性。
比如：监督衰落调SFT、人类反馈的强化学习RLHF等技能，RLAIF、SuperAlignment等。
这些方法帮助将人类的偏好通报给AI，助推呈现出了ChatGPT、GPT-4等令人愉快的AI系统，以及我们上海AI实验室的诗人Intern大模型等等。
虽然瞄准的是安全和性能同时提升，但这些方法在实际利用中每每还是性能优先。

以是总体上，我们在AI模型安全能力方面的提升，还远远掉队于性能的提升，这种失落衡导致AI的发展是跛脚的，我们称之为Crippled AI。

不屈衡的背后是二者投入上的巨大差异。
如果比拟一下，从研究是否体系化，以及人才密集度、商业驱动力、算力的投入度等方面来看，安全方面的投入是远远掉队于AI能力的。

智能向善，要确保AI可控，统筹发展与安全。
毫无疑问地，我们要避免这样的Crippled AI发展，我们该当追求的是：TrustWorthy AGI，可信的AI，可信的通用人工智能。

可信AGI须要能够兼顾安全与性能，我们须要找到AI安全优先，但又能担保AI性能长期发展的技能体系。
我们把这样一种技能思想体系叫做“AI-45°平衡律” （AI-45° Law）。

AI-45°平衡律是指从长期的角度来看，我们要大体上沿着45度安全与性能平衡发展，平衡是指短期可以有颠簸，但不能长期低于45°（犹如现在），也不能长期高于45度（这将阻碍发展与家当运用）。
这个技能思想体系哀求强技能驱动、全流程优化、多主体参与以及敏捷管理。

实现AI-45°平衡律大概有多种技能路径。
我们上海AI实验室最近在探索一条以因果为核心的路径，我们把它取名为：可信AGI的“因果之梯”，致敬因果推理领域的先驱——图灵奖得主Judea Pearl。

可信AGI的“因果之梯”将可信AGI的发展分为三个递进阶段：泛对齐、可干预、能反思。

“泛对齐”紧张包含当前最前沿的人类偏好对齐技能。
但须要把稳的是，这些安全对齐技能仅依赖统计干系性而忽略真正的因果关系，可能导致缺点推理和潜在危险。
一个范例的例子是巴甫洛夫的狗：当狗仅仅基于铃声和食品的统计干系性形成条件反射时，它可能在任何听到铃声的场合都触发行为分泌唾液——如果这些行为涉及到……时这显然是不屈安的。

“可干预”紧张包含通过对AI系统进行干预，探究其因果机制的安全技能，例如人在回路、机器可阐明性，以及我们提出的对抗演习训练等，它以通过提高可阐明性和泛化性来提升安全性，同时也能提升AI能力。

“能反思”则哀求AI系统不仅追求高效实行任务，还能核阅自身行为的影响和潜在风险，从而在追求性能的同时，确保安全和道德边界不被打破。
这个阶段的技能，包括基于代价的演习、因果可阐明性、反事实推理等。

目前，AI安全和性能技能发展紧张勾留第一阶段，部分在考试测验第二阶段，但要真正实现AI的安全与性能平衡，我们必须完善第二阶段并勇于攀登第三阶段。
沿着可信AGI的“因果之梯”拾级而上，我们相信可以构建真正可信AGI，实现人工智能的安全与卓越性能的完美平衡。

终极，像安全可控的核聚变技能为全人类带来清洁、丰富的能源一样，我们希望通过深入理解AI的内在机理和因果过程，从而安全且有效地开拓和利用这项革命性技能。

也正如可控核聚变对全人类都是共同利益一样，我们坚信AI的安全也是环球性的公共福祉，刚刚在发布的《人工智能环球管理上海宣言》中提到“要推动各国加强互换和对话”，我们愿与大家一起携手推进AI-45°平衡律的发展，共享AI安全技能、加强环球AI安全人才互换与互助，平衡AI安全与能力的投入，共同构建开放、安全的通用人工智能创新生态和人才发展环境。

感激大家！

文：周伯文

图：上海人工智能实验室供应

编辑：沈湫莎

每期AI知识网

上海人工智能实验室主任周伯文探索AI45°平衡律兼顾安然与机能

5个王炸级AI对象记得点赞收藏

近五千支军队决战金融AI之巅 AFAC2024大年夜赛于外滩圆满收官