论文《Identifying and Mitigating the Security Risks of Generative AI》由多位人工智能领域的专家合著,深入磋商了天生性人工智能(Generative AI,简称 GenAI技能的安全风险及其缓解方法

择要与关键词择要:论文指出,像所有重大技能发明一样,GenAI技能具有双面性,可以用于积极的目的,也可能被滥用。
论文总结了在谷歌举行的研讨会上的创造,并提出了短期和长期目标,旨在为社区供应谈论出发点和研究问题。
关键词:鲁棒性、行为学习、认知神经学习、深度学习、安全与隐私政策、安全架构、安全与隐私中的人为成分、安全与隐私中的人工智能方法。
弁言双用场困境:GenAI技能,如大型措辞模型(LLMs)和扩散模型,展示了在高下文学习、代码补全、文本到图像天生和编辑方面的能力。
但同样,它们也可能被攻击者用来天生新的攻击,提高现有攻击的速率和效率。
GenAI 技能能力定义:GenAI是一类能够模拟输入数据的构造和特色以天生合成内容的AI模型,包括图像、视频、音频、文本等。
LLMs:基于transformer深度学习架构,能够模拟书面措辞,并已扩展到非文本模态。
GenAI 攻击1. 鱼叉式网络钓鱼(Spear-phishing)定义:这是一种针对性的网络钓鱼攻击,攻击者利用GenAI技能制作出看似合理、会话性强、难以置信的钓鱼邮件。
风险:GenAI可以利用社交工程技巧,根据目标的社交媒体信息定制化钓鱼邮件,增加欺骗收件人成功的可能性。
2. 深度假造的传播(Dissemination of Deepfakes)定义:GenAI能够快速、大规模地天生高保真度的多模态输出,如假视频、假音频等。
风险:恶意用户可能利用这一能力散布与特定叙事符合的缺点信息和虚假信息,导致信息生态系统的政治化和媒体的污染。
3. 网络攻击的扩散(Proliferation of Cyberattacks)定义:GenAI模型具备天生高质量代码的能力,可能被用来设计繁芜的恶意软件。
风险:这些恶意软件可能包括自动代码天生和实行能力,增加了攻击的规模、强度和暗藏性。
4. 攻击者进入门槛的降落(Low Barrier-of-Entry for Adversaries)定义:GenAI简化了措辞处理任务,降落了进行网络攻击所需的人力、韶光和本钱。
风险:攻击规模的增加和攻击者群体的扩大,以及随着模型改进,滥用这些模型进行恶意行为的动机在上升。
5. 缺少社会意识和人类情绪(Lack of Social Awareness and Human Sensibility)风险:GenAI模型在天生语法和语义精确的文本方面非常闇练,但它们缺少对社会背景和人类情绪的理解,可能导致对用户的严重后果。
6. 幻觉(Hallucinations)定义:GenAI模型可能产生事实上缺点或完备虚构的输出,但表面上看起来仍旧连贯。
风险:用户可能过度依赖这些模型,而没故意识到它们的这一局限性,导致依赖缺点信息做出决策。
7. 数据反馈循环(Data Feedback Loops)定义:GenAI模型演习依赖于互联网上的公开数据,但随着GenAI模型的遍及,机器天生的输出可能反馈到互联网上,影响未来的演习数据。
风险:可能导致数据质量低落、偏见和缺点的放大,以及数据投毒攻击的风险增加。
8. 不可预测性(Unpredictability)定义:LLMs是通用的,能够在零样本设置下实行多种措辞处理任务,但它们可能展现出未明确设计的新“紧急能力”。
风险:这可能导致传统机器学习安全观点的重新定义,使得评估变得更加困难,为攻击者供应了新的攻击路子。
防御方法1. 检测LLM天生内容(Detecting LLM Content)目的:开拓能够区分由LLM天生的文本与自然人类天生文本的检测器。
寻衅:攻击者可以对LLM天生的文本进行改述,使得检测器难以识别。
2. 水印技能(Watermarking)目的:在GenAI天生的内容中嵌入难以被检测或移除的统计旗子暗记,以证明内容的来源。
寻衅:水印可能通过大略的文本改述或图像变换被移除。
3. 代码剖析(Code Analysis)目的:利用LLMs进行代码去稠浊,帮助剖析和检测恶意软件。
方法:可能通过在去稠浊和未去稠浊的代码示例上微调LLMs来实现。
4. 渗透测试(Penetration Testing)目的:自动化渗透测试过程,帮助创造和利用系统漏洞。
方法:LLMs可以赞助人类渗透测试职员,覆盖更多的潜在漏洞。
5. 多模态剖析(Multi-modal Analysis)目的:结合文本、图像、视频等多种模态进行综合剖析,提高剖析的准确性和鲁棒性。
运用:例如,在社交媒体上检测虚假账户或假新闻。
6. 个性化技能演习(Personalized Skill Training)目的:利用GenAI创建定制化的学习体验,提高个人技能。
运用:例如,在网络安全教诲中仿照专业对话和情景。
7. 人-AI协作(Human–AI Collaboration)目的:增强人类与AI之间的协作,提高任务实行的效率和质量。
方法:例如,在文本分类或文档择要任务中,结合人类标注者和LLMs的预测结果。
8. 利用案例探索(Use Cases for Emerging Defense Techniques)目的:探索和确定新兴防御技能的适用场景。
考虑:须要考虑现有技能的局限性,并确定它们在何种情形下仍旧有效。
9. 代码天生与安全编码实践对齐(Alignment of LLM-enabled Code Generation)目的:确保LLMs天生的代码符合安全编码标准。
方法:可能须要将安全和隐私哀求整合到LLMs的演习中。
10. 建立攻击和防御技能库(Repository and Service of SOTA Attacks and Defenses)目的:创建一个资源库,网络和供应最新的攻击和防御技能。
运用:帮助研究职员和实践者理解并运用最前辈的技能。
11. 新兴防御技能的发展(Emerging Defenses for GenAI)目的:开拓能够有效区分AI天生内容和人类天生内容的检测算法。
种别:包括基于神经网络的检测器、零样本检测器、基于检索的检测器和基于水印的检测器。
短期目标1. 新兴防御技能的用例探索(Use Cases for Emerging Defense Techniques)目标:识别并开拓针对GenAI天生内容检测和水印技能的用例,只管这些技能面临着快速进化的攻击手段。
行动:须要全面核阅攻防技能的现状,并探索这些技能在何种场景下有效。
2. 针对LLM启用的代码剖析确当前技能状态(Current State of the Art for LLM-Enabled Code Analysis)目标:对LLMs在代码干系任务上的能力进行全面剖析,如代码择要、代码补全、代码稠浊和去稠浊。
行动:须要基于现有技能,评估可能的防御和威胁。
3. 将LLM启用的代码天生与安全编码实践对齐(Alignment of LLM-Enabled Code Generation to Secure-Coding Practices)目标:确保LLMs天生的代码补全符合安全编码标准,减少开拓者须要验证LLM输出的包袱。
行动:集成如强化学习等技能,并利用安全编码实践的通用数据集进行LLMs的演习。
4. 建立攻击和防御技能的资源库(Repository and Service of SOTA Attacks and Defenses)目标:创建一个包含针对各种防御技能的最新攻击和防御技能的资源库。
行动:供应如DARPA SemaFor操持等最新技能的做事平台,以确保支配最新技能。
5. 新兴防御技能的发展(Emerging Defenses for GenAI)目标:开拓能够有效区分AI天生内容和人类天生内容的检测算法。
行动:研究和改进神经网络根本的检测器、零样本检测器、检索根本的检测器和水印根本的检测器。
6. 水印技能的深入研究(In-Depth Investigation of Watermarking)目标:深入研究水印技能的利用场景,考虑如何提高水印的鲁棒性和检测算法的可靠性。
行动:须要更多研究来确定水印技能的有效性和局限性。
7. 减少对现有技能的依赖(Reducing Reliance on Current Techniques)目标:减少对现有技能的依赖,这些技能可能由于GenAI的进步而变得不那么有效。
行动:鼓励开拓新的防御方法,以适应不断变革的攻击手段。
8. 促进开放和互助的研究环境(Fostering an Open and Collaborative Research Environment)目标:建立一个开放的研究环境,促进知识共享和协作,加速防御技能的发展。
行动:鼓励开源项目,促进学术界和工业界的互助。
9. 教诲和培训(Education and Training)目标:提高公众年夜众对GenAI潜在风险的认识,并供应必要的教诲和培训。
行动:开拓教诲材料和培训课程,教授如何识别和戒备GenAI干系的安全威胁。
长期目标1. 社会技能办理方案的需求(Need for Socio-Technical Solutions)目标:开拓能够理解技能和社会之间相互浸染的办理方案,填补技能办理方案与社会需求之间的差距。
行动:须要新的模型评估指标,这些指标能够结合社会意识,并明确表达不同运用处景下的潜在缺陷和权衡。
2. 在线荣誉系统的开拓(Development of an Online Reputation System)目标:创建一个别系,鼓励用户建立和掩护一个具有可验证凭据的公共数字身份。
行动:通过链接跨网络的平台和账户,建立同等的在线存在,并跟踪信息传播链,利用户能够追溯信息的来源和传播路子。
3. 任务建模(Accountability Modeling)目标:确立对GenAI模型可能造成的危害卖力的机制,为负任务的实践供应强有力的勉励。
行动:须要进一步研究如何在用户、模型开拓者和模型供应商之间运用任务和分配任务。
4. 隐私影响的理解(Understanding Privacy Impacts)目标:深入理解GenAI时期隐私的含义,办理利用公开领域数据进行模型演习的伦理问题。
行动:须要正式化不断发展的隐私观点,以办理利用公开数据演习模型的伦理影响。
5. 多重防线策略(Multiple Lines of Defenses)目标:采取新的风险管理策略,分配资源到最薄弱的领域,并相应地优先考虑安全方法。
行动:建立包括演习时干预、事后检测和过滤以及红队测试等多层次防御。
6. 多元代价不雅观的同等性(Pluralistic Value Alignment)目标:确保AI功能与人类代价不雅观和目标的同等性,同时考虑到多元化和竞争性的代价不雅观。
行动:促进跨学科谈论和互助,尊重多元代价不雅观,为负任务的AI发展供应辅导。
7. 降落GenAI研究的进入门槛(Reducing Barrier to Entry for GenAI Research)目标:民主化GenAI研究,降落学术界和小型初创企业的进入门槛。
行动:鼓励更高效的GenAI模型演习过程研究,促进开源办理方案的访问。
8. 新的互助伙伴关系(New Partnerships Among Stakeholders)目标:建立政府、学术界和商业部门之间的新伙伴关系,以促进负任务的GenAI发展。
行动:基于互助、开放沟通和相互理解的原则建立伙伴关系,确保政策制订考虑到技能进步。
9. 根本性研究(Grounding Research)目标:在高风险领域,如网络安全和医疗保健,确保GenAI天生的文本基于威信知识源。
行动:研究如何检测和鼓励LLMs天生基于引用的、有根据的相应。

这些长期目标强调了须要一个综合性的方法来办理GenAI带来的寻衅,包括技能创新、社会构造、法律框架和伦理原则。
通过这些目标,研究社区希望能够构建一个更安全、更负任务的GenAI生态系统。

结论论文强调,GenAI技能的涌现带来了双用场困境,须要社区立即开始研究的问题,并提出了须要长期研究努力的寻衅性问题。
致谢作者感谢匿名审稿人和一系列专家的反馈。
特殊解释文档经由DARPA审查,并在2023年8月28日得到公开拓布容许。
参考文献论文列出了一系列干系的研究和资源链接,为进一步研究供应了根本。
解读构造背景与主要性:先容GenAI技能的快速发展及其带来的安全风险。
技能能力剖析:详细剖析GenAI技能的能力,包括LLMs和其他模型。
攻击手段与案例:列举GenAI可能被滥用的办法,并供应实际案例。
防御策略与技能:磋商现有的和新兴的防御方法,以及它们的局限性。
短期与长期目标:基于当前技能发展,提出短期和长期的研究与政策目标。
社会技能寻衅:谈论GenAI技能对社会技能系统的影响,以及如何构建综合性的办理方案。
结论与建议:总结研讨会的紧张创造,并对未来研究方向提出建议。
结语

这篇论文为我们供应了一个全面的视角,以理解GenAI技能所面临的安全风险,并提出了一系列应对策略。
它强调了跨学科互助的主要性,并呼吁社会各界共同努力,确保GenAI技能的康健发展和安全利用。
由于篇幅限定,这里仅供应了论文的高层次解读,详细的技能细节和完全解读须要进一步深入剖析。

链接:https://arxiv.org/pdf/2308.14840

生成性人工智能的风险评估与计策筹划