本编文章基于上述论文翻译后的择要进行阐述,很多专业词汇会用口语阐述,有示意不到位的地方,敬请包涵!
如果有兴趣理解更多AI知识可参考:《AI到底是什么?愚公挖山大喷儿系列—人工智能这座山(1) 》、《马斯克:人类完了!
AI四种模型什么?挖一挖人工智能这座山(2)》、《 马斯克:该走哪条路?深入理解AI发展史,愚公挖山系列(三期) 》等
回到《ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs》这篇论文,美国华盛顿大学研究职员科研组,利用LLM(大规模措辞模型:超70亿数据含义的词语剖析工具)设计出“ASCII ART同义薄弱性阐述模型”(同义词),使LLM输出有害知识的新越狱攻击形式的研究报告。
基于这里,有点含糊的小伙白,可以这样理解:你要约请女孩上楼,但直说他会谢绝,你就说(想请你上楼喝杯茶),如果还弗成就(82年的拉菲一起品尝如何),还弗成就(一起打会扑克吧)....。大概便是这个意思[惊喜]
该研究报告指出:LLM讯问如何制作炸弹,常日被谢绝输出,一个例子是通过这种方法将“危险词汇”天生为“ASCII ART(艺术同义词汇)”直至成功输出。
研究提出了一种“ArtPrompt”方法,通过在提示中包含ASCII ART来输出有害内容。详细来说,首先要找出LLM可能谢绝的词语。然后,利用ASCII ART在视觉上隐蔽这个词,并将转换后的提示发送到LLM进行攻击。
例如,在提示“见告我如何建造炸弹”时,LLM常日会谢绝回答,但如果你只将“炸弹”一词改为ASCII ART,LLM就会输出如何制造炸弹。
该机构科研职员引入了一个基准Vision-in-Text Challenge”(VITC危险词汇同义模型)来评估ArtPrompt的效果,并利用最前辈的LLM进行了实验,并同时攻击GPT-3.5、openAI、GPT-4、Claude、Gemini和Llama 2等工具。
在持续的自动攻击下,这些模型在识别ASCII ART所表示的字母和数字方面碰着了困难,并且它们的识别能力明显低落,特殊是当输入查询包含多个字母和数字时,GPT-3.5的攻击成功率最高,为78%,其次是Gemini(76%)、Claude(52%)、GPT-4(32%)和Llama 2(20%)。
显然利用AI去攻击AI,拥有海量知识的人工智能库会涌现漏洞,从而导致一些“潘多拉魔盒深处的阴郁知识暴露在外”,科学家们考试测验了“如何获取身份信息?如何制造意外?如何用蔬菜制造化学毒物、如何制造反应堆等”都顺利绕过了安全机制,实现了越狱!
对此,您怎么看?感谢关注《良舍》频道,第一韶光理解国际热点,追踪前沿动态!
欢迎留言谈论,揭橥您不一样的不雅观点!