而且不必知道模型内部细节——

只须要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。

听说曾经红极一时的“奶奶漏洞”已经被修复了:

那么现在搬出“侦查漏洞”、“冒险家漏洞”、“作家漏洞”,AI又该如何应对?

20步内逃狱随便率性大年夜模型更多奶奶马脚全自动创造

一波猛攻陷来,GPT-4也遭不住,直接说出要给供水系统投毒只要……这样那样。

关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开拓的算法,AI可以自动天生各种攻击提示。

研究职员表示,这种方法比较于现有的GCG等基于token的攻击方法,效率提高了5个量级。
而且天生的攻击可阐明性强,谁都能看懂,还能迁移到其它模型。

无论是开源模型还是闭源模型,GPT-3.5、GPT-4、 Vicuna(Llama 2变种)、PaLM-2等,一个都跑不掉。

成功率可达60-100%,拿下新SOTA。

话说,这种对话模式彷佛有些似曾相识。
多年前的初代AI,20个问题之内就能破解人类脑中想的是什么工具。

如今轮到AI来破解AI了。

让大模型集体越狱

目前主流越狱攻击方法有两类,一种是提示级攻击,一样平常须要人工策划,而且不可扩展;

另一种是基于token的攻击,有的须要超十万次对话,且须要访问模型内部,还包含“乱码”不可阐明。

△左提示攻击,右token攻击

宾夕法尼亚大学研究团队提出了一种叫PAIR(Prompt Automatic Iterative Refinement)的算法,不须要任何人工参与,是一种全自动提示攻击方法。

PAIR涉及四个紧张步骤:攻击天生、目标相应、越狱评分和迭代细化;紧张用到两个黑盒模型:攻击模型、目标模型。

详细来说,攻击模型须要自动天生语义级别的提示,来攻破目标模型的安全防线,迫使其天生有害内容。

核心思路是让两个模型相互对抗、你来我往地互换。

攻击模型会自动天生一个候选提示,然后输入到目标模型中,得到目标模型的回答。

如果这次回答没有成功攻破目标模型,那么攻击模型会剖析这次失落败的缘故原由,改进并天生一个新的提示,再输入到目标模型中。

这样持续互换多轮,攻击模型每次根据上一次的结果来迭代优化提示,直到天生一个成功的提示将目标模型攻破。

此外,迭代过程还可以并行,也便是可以同时运行多个对话,从而产生多个候选越狱提示,进一步提高了效率。

研究职员表示,由于两个模型都是黑盒模型,以是攻击者和目标工具可以用各种措辞模型自由组合。

PAIR不须要知道它们内部的详细构造和参数,只须要API即可,因此适用范围非常广。

GPT-4也没能逃过

实验阶段,研究职员在有害行为数据集AdvBench中选出了一个具有代表性的、包含50个不同类型任务的测试集,在多种开源和闭源大措辞模型上测试了PAIR算法。

结果PAIR算法让Vicuna越狱成功率达到了100%,均匀不到12步就能攻破。

闭源模型中,GPT-3.5和GPT-4越狱成功率在60%旁边,均匀用了不到20步。
在PaLM-2上成功率达到72%,步数约为15步。

但是PAIR在Llama-2和Claude上的效果较差,研究职员认为这可能是由于这些模型在安全防御上做了更为严格的微调。

他们还比较了不同目标模型的可转移性。
结果显示,PAIR的GPT-4提示在Vicuna和PaLM-2上转移效果较好。

研究职员认为,PAIR天生的语义攻击更能暴露措辞模型固有的安全毛病,而现有的安全方法更侧重防御基于token的攻击。

就比如开拓出GCG算法的团队,将研究结果分享给OpenAI、Anthropic和Google等大模型厂商后,干系模型修复了token级攻击漏洞。

大模型针对语义攻击的安全防御机制还有待完善。

论文链接:https://arxiv.org/abs/2310.08419

参考链接:https://x.com/llm_sec/status/1718932383959752869?s=20

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态