1. 数据安全与隐私问题
大模型在演习过程中须要大量的数据作为支撑,这些数据每每包含用户的敏感信息。一旦这些数据被恶意利用或透露,将带来严重的后果。数据安全与隐私问题的寻衅紧张表示在以下几个方面:
★数据透露:由于大模型常日须要在云端进行演习,数据在传输和存储过程中可能面临透露的风险。攻击者可能通过盗取数据或利用漏洞来访问敏感信息。
★数据滥用:纵然数据没有被直接透露,攻击者也可能通过剖析大模型的输出结果来推断出原始数据的信息,进而滥用这些数据。
★隐私陵犯:大模型在处理用户数据时,可能无意中陵犯了用户的隐私权。例如,通过剖析用户的文本输入,大模型可能能够推断出用户的身份、兴趣、习气等敏感信息。
2. 模型流转/支配过程中的安全问题
大模型在流转和支配过程中也面临着诸多安全问题。这些问题紧张包括对抗攻击、后门攻击和prompt攻击等。
★对抗攻击:对抗攻击是指攻击者通过精心布局的输入来欺骗大模型,使其产生缺点的输出。这种攻击办法对付依赖大模型进行决策的系统来说具有极大的威胁。
★后门攻击:后门攻击是指攻击者在演习大模型时嵌入特定的“后门”,使得攻击者能够在不毁坏模型整体性能的情形下,通过特定的输入来操纵模型的输出结果。这种攻击办法具有暗藏性和难以检测的特点。
★prompt攻击:prompt攻击是一种新型的攻击办法,它利用大模型对prompt的敏感性来履行攻击。攻击者通过布局特定的prompt来勾引大模型产生缺点的输出或透露敏感信息。
3. AIGC的内容合规问题
AIGC(AIGeneratedContent)是指由人工智能天生的内容。随着大模型在内容天生领域的广泛运用,AIGC的内容合规问题也日益凸显。这些问题紧张包括版权侵权、虚假信息、低俗内容等。
★版权侵权:AIGC在天生内容时,可能会陵犯他人的版权。例如,未经授权利用他人的作品作为演习数据,或者天生的内容直接复制了他人的作品。
★虚假信息:由于大模型在演习过程中可能打仗到大量的虚假信息,因此AIGC在天生内容时也可能包含虚假信息。这些虚假信息可能会误导用户,乃至对社会造成不良影响。
★低俗内容:AIGC在天生内容时,可能会产生低俗、不道德的内容。这些内容不仅可能违反社会公德,还可能对用户造成生理侵害。
4. 大模型运营过程中的业务安全问题
大模型在运营过程中也面临着业务安全问题的寻衅。这些问题紧张包括数据投毒、模型误用和滥用等。
★数据投毒:数据投毒是指攻击者在演习数据中故意添加缺点或有害的信息,以毁坏大模型的性能或勾引其产生缺点的输出。这种攻击办法对付依赖大模型进行决策的系统来说具有极大的威胁。
★模型误用和滥用:大模型在运营过程中可能会被误用或滥用。例如,攻击者可能利用大模型进行恶意攻击、传播虚假信息等。此外,一些不法分子还可能利用大模型进行造孽活动,如诱骗、洗钱等。
二、大模型安全基本哀求解读
大模型运用面临安全寻衅和威胁,对个人隐私保护、社会伦理和系统安全产生巨大的寻衅,因此对大模型的内容安全性进行评估和改进显得尤为主要。本文以国家网信办《天生式人工智能做事管理暂行办法》和网安标委《天生式人工智能做事安全基本哀求》为辅导根本进行安全分类,针对性的天生了对应的评估内容,供大模型进行内容安全评测评估,以达到帮助大模型内容风控系统升级,促进大模型生态康健发展的目的,《基本哀求》解读如下:
1. 语料安全哀求
●语料来源安全
语料来源管理方面,哀求利用合法来源的语料,并对语料内容质量提出了量化标准,如语料内容含违法不良信息超过5%的,不应采集或利用该来源语料。语料来源搭配方面,哀求提高语料来源的多样性。如演习语估中的中文文本、英文文本、代码、图片、音频、视频及其他语料等。语料来源可追溯方面,哀求做事供应者具备合法的处理依据。
●语料内容安全
知识产权合规方面,哀求建立知识产权管理策略、识别知识产权侵权风险、完善投诉举报渠道、公开择要信息等。
个人信息保护方面,哀求做事供应者应确保其个人信息处理行为具有合法性根本,即取得对应个人信息主体的赞许或符合法律、行政法规规定的其他环境。当涉及敏感个人信息的利用时,还必须得到个人的单独赞许。
●语料标注安全
2. 模型安全哀求
●模型天生内容安全性:哀求做事供应者应对每次利用者输入的信息进行安全性监测,勾引模型天生积极正向内容,并建立常态化检测测评手段,对测评过程中创造的安全问题及时处置,通过指令微调、强化学习等办法优化模型。
●模型天生内容准确性:哀求做事供应者采取技能手段提高天生内容的实时性与精准度。
●模型天生内容可靠性:哀求做事供应者采纳技能方法提高天生内容格式框架的合理性以及有效内容的含量,提高天生内容对利用者的帮助浸染。
3. 安全方法哀求
●模型适用性做事供应者在做事范围内运用AIGC时应充分论证模型的必要性、适用性和安全性。应设立未成年人保护方法,同时需遵守《未成年人保护法》《个人信息保护法》《未成年人网络保护条例》等规定,保障未成年人身心康健安全。
●做事透明度
在网站首页等显著位置向社会公创办事适用的人群、场合、用场等信息,并公开根本模型利用情形。以可编程接口形式供应做事的,应在解释文档中公开上述信息。
●用户数据处理
做事供应者应为用户供应便捷路子关闭输入信息用于模型演习的功能,如设置易懂选项或简洁语音掌握指令。为确保便捷性,《哀求》明确:通过选项关闭时,操作过程应掌握在四次点击以内。同时,做事供应者应确保界面设计或用户交互中显著奉告信息网络状态,并清晰展示关闭选项或指令,以符合“透明度”哀求。
●用户管理
1.履行监测机制:通过关键词筛查或分类模型等办法,对用户输入的信息进行实时监测,以便及时创造并处置不当行为;
2.谢绝回答机制:对付检测到的含有明显过分或勾引天生违法不良信息的问题,做事供应者的系统应自动谢绝回答,防止传播潜在有害内容。
3.人工监看机制:配备专门的监看职员,及时根据监看情形提升天生内容的质量与安全性,并对第三方投诉进行网络和相应。
●做事稳定性
为掩护做事稳定性,《哀求》建议做事供应者采纳安全方法。例如隔离演习与推理环境,防止数据透露和不当访问。持续监测模型输入内容,预防恶意攻击。定期安全审计,识别和修复安全漏洞。建立数据、模型备份和规复策略。
4. 安全评估哀求
为确保评估事情的可操作性,《哀求》特殊针对语料安全、天生内容安全、问题拒答等方面提出了量化的评估标准,详细哀求请见下表。
三、OWASP大模型TOP10安全风险
OWASP组织在2023年10月16日发布了LLM(大型措辞模型)十大安全风险1.1版本,概述了针对LLM的潜在攻击办法、预防方法和攻击场景,可以帮助读者更好的理解LLM所面临的安全风险以及应对策略。
总结
大模型运用正面临严厉的安全寻衅和威胁,包括数据隐私透露、网络攻击、注入漏洞等。全国网络安全标准化技能委员会发布的《天生式人工智能做事安全基本哀求》为行业供应了明确的安全指引,哀求做事供应者加强语料安全、模型安全等方面的管理。望安科技深耕于信息安全领域,致力于为国家重大项目、关键系统及行业企业供应安全保障,不断推动信息安全家当发展,助力泛安全领域及家当化培植。
(文章来源:网宿安全演武实验室)