据兰德智库5月30日发布报告称,广泛的人工智能系统安全生态系统涵盖了模型权重、架构设计、演习数据和运营根本举动步伐等组件。考虑到这个生态系统的规模,兰德将重点缩小到一个关键子集:人工智能模型的可学习参数,常日称为模型权重。这包括在演习期间学习到的权重和偏差,这对付模型做出预测或决策的能力至关主要。
基于两个关键
该报告专注于模型权重,基于两个关键考虑:
• 风险评估:模型权重独特地代表了演习高等模型的各种具有寻衅性的先决条件的顶峰,包括大量打算(即用于处理数据和运行打算的处理能力和资源,对付GPT-4来说,估计为数千个图形处理单元[GPU]年,据宣布GPT-4和谷歌的Gemini Ultra的演习整天职别为7800万美元和近2亿美元)和演习数据(据传GPT-4超过10TB),演习期间利用的算法改进和优化等等。只管纵然攻击者无法直接盗取权重,也可以重现权重,但重现它们须要知足上述所有先决条件。另一方面,一旦攻击者可以访问模型的权重,就可以不受限定或监控地滥用模型。只有两个先决条件。第一个是推理所需的打算,估计本钱大约每个单词0.0065美元。第二个是模型架构——演习开始前模型的预先存在的构造,并且可能从权重的构造中推断出来。
• 可行性:保护模型权重在技能上具有寻衅性,但与其他组件(例如架构或演习数据)比较,它供应了更易于处理的干预点。模型架构是更小的信息块,因此更随意马虎通过网络或在工程师的脑海中透露。还有更多的人须要理解架构细节:确定模型改进的研究职员、优化模型效率的工程师等等。虽然模型权重常常利用,但大多数用例不须要灵巧地读取完全权重——权重可以更随意马虎地通过防复制接口进行保护。演习数据常日是从公共来源抓取或从商业聚合器购买的,因此不太受人工智能组织的独家掌握。
剖析重点是根本模型,特殊是大型措辞模型(LLM)和类似的多模态模型。我们对此类模型做出以下关键技能假设:
• 规模:Frontier模型规模很大(所需的权重存储达到TB级),估量未来还会大幅增长,这使得未经授权的复制或盗窃更随意马虎监控或防止。
• 可用性:这些模型的常见用例须要在线高可用性,常日通过推理运用程序编程接口(API),这对隔离此类模型的办法引入了具有寻衅性的限定(至少在商业环境中)。
报告打消了那些权重对安全并不主要的模型。模型权重视为对安全至关主要的一个缘故原由是,其功能对公共安全构成风险。评估一个模型是否构成大规模社会风险是一个新兴领域,但未来可能会根据每个模型的评估风险运用本报告中提出的不同安全方法(或默认运用于尚未评估的潜在风险模型)。一旦模型公开可用(常日称为“开源”),就不再有必要保护它的特定副本。是否“开源”未来模型的决定应取决于它们的风险是否值得掌握对它们的访问。
该报告关注的是模型权重,但我们也承认人工智能安全的其他方面也很主要。确保其他组件(如模型架构、演习数据和源代码)的机密性在人工智能系统的整体安全态势中起着至关主要的浸染,但这超出了本报告的范围。同样,保护模型的完全性和可用性、防止合法API滥用以及在模型透露的情形下方案减轻危害也发挥着重要浸染。
研究问题
1. 在保护前沿人工智能模型时,人工智能组织该当防御哪些威胁模型?
2. 如何保护前沿人工智能模型的权重免受各种攻击者的攻击?
3. 前沿人工智能组织如何根据其安全态势评估自己可以戒备哪些攻击者?
随着前沿人工智能(AI)模型(即在开拓时能够匹敌或超越最前辈模型能力的模型)变得越来越强大,保护它们免遭盗窃和滥用将变得更加主要。本报告的作者磋商了如何保护模型权重(编码AI核心智能的可学习参数)免受各种潜在攻击者的盗窃。
详细而言,作者(1)确定了38种截然不同的攻击媒介,(2)探索了各种潜在的攻击者的行动能力,从机会主义(常日受财务驱动)犯罪分子到资源丰富的国家行动,(3)估计每个攻击媒介由不同类别的攻击者实行的可行性,以及(4)定义五个安全级别并推举大致达到安全级别的初步基准安全系统。
该报告可以帮助前沿人工智能组织的安全团队更新他们的威胁模型并奉告他们的安全操持,并帮助与人工智能组织互助的政策制订者更好地理解如何参与与安全干系的主题。
紧张创造
• 人工智能组织面临着多种威胁,涉及许多截然不同的攻击媒介和各种攻击者的能力。
• 网络安全和国家安全专家对付如何保护数字系统和信息免受能力较弱的行为者的攻击达成了大致的共识,但对付须要采纳什么方法来防御能力较强的行为者(如网络能力最强的国家)的攻击,存在着广泛的不合。
• 前沿AI模型权重的安全不能通过履行少数“银弹”安全方法来担保,须要采纳综合方法,包括对根本举动步伐进行大量投资,以及针对不同潜在风险采纳多种安全方法。
• 短期内有很多机会可以显著提高前沿实验室模型权重的安全性。
• 在未来几年中,要确保模型权重能够与最有能力的参与者相反抗将须要更多的投资。
建议
• 人工智能模型的开拓者该当有一个明确的操持来保护那些视为具有危险功能的模型。
• 开拓前沿模型的组织应利用报告中详述的威胁形势剖析和安全级别基准来帮助评估他们已经正在办理的安全漏洞,并重点关注尚未办理的安全漏洞。
• 制订全面威胁模型的安全操持,重点防止未经授权的访问和模型权重的盗窃。
• 将所有权重副本集中到有限数量的访问掌握和监控系统中。
• 减少有权打仗重量的人数。
• 强化模型访问接口以防止权重透露。
• 履行内部威胁操持。
• 投资纵深防御(多层安全掌握,在某些掌握失落效时供应冗余)。
• 参与前辈的第三方红队活动,合理仿照干系威胁行为者。
• 结合机密打算来确保利用过程中的权重并减少攻击面。
小结
人工智能能力的进步既带来了巨大的机遇,也带来了巨大的寻衅。一旦恶意行为者节制了模型的权重,那么无限制地滥用其干系能力的障碍就很低。鉴于此类能力的变革速率很快,须要制订强有力的前瞻性计策来确保人工智能系统的安全。我们的谈论强调了保护此类系统的繁芜性,特殊是在保护前沿人工智能系统的权重免遭盗窃,尤其是抵御高等威胁的背景下。
本报告提出了四大贡献,旨在帮助组织应对创建或改进安全策略的寻衅:
1. 定义攻击者的作战能力种别;
2. 识别不同的攻击媒介;
3. 评估不同容量种别实行每种攻击媒介的可行性;
4. 定义安全级别,旨在戒备日益强大的恶意行为者。
这些贡献使组织能够得出故意义的不雅观察结果和决策,例如识别许多公司可能没有把稳到的八种攻击媒介,由于在防御能力较弱的对手时不须要针对此类媒介的安全方法,但在防御能力较强的对手时则至关主要。此外,运营能力的分类,以及媒介的可行性和安全级别中包含的基准系统,使组织能够详细评估他们是否大致达到安全级别的阈值,并确定改进其安全态势的优先事变和后续步骤。
从基准测试系统中可以明显看出,实现更高的安全级别面临寻衅,可能须要在运营效率方面做出妥协。例如,基准测试须要严格限定AI权重的访问办法,重新考虑数据中央的构建办法,在安全保障和冗余方面投入大量资金等等。个中一些事情可能须要数年才能实现。安全级别本身并不虞味着须要什么样的安全结果。它们只是帮助校准履行的安全方法和可能实现的安全结果。