AI破解袒露暗常识首次用AI破解AI成功率78魔盒被打开

本编文章基于上述论文翻译后的择要进行阐述，很多专业词汇会用口语阐述，有示意不到位的地方，敬请包涵！
如果有兴趣理解更多AI知识可参考：《AI到底是什么？愚公挖山大喷儿系列—人工智能这座山（1）》、《马斯克：人类完了！
AI四种模型什么？挖一挖人工智能这座山（2）》、《马斯克：该走哪条路？深入理解AI发展史，愚公挖山系列（三期）》等

回到《ArtPrompt： ASCII Art-based Jailbreak Attacks against Aligned LLMs》这篇论文，美国华盛顿大学研究职员科研组，利用LLM（大规模措辞模型：超70亿数据含义的词语剖析工具）设计出“ASCII ART同义薄弱性阐述模型”（同义词），使LLM输出有害知识的新越狱攻击形式的研究报告。

基于这里，有点含糊的小伙白，可以这样理解：你要约请女孩上楼，但直说他会谢绝，你就说（想请你上楼喝杯茶），如果还弗成就（82年的拉菲一起品尝如何），还弗成就（一起打会扑克吧）....。
大概便是这个意思[惊喜]

该研究报告指出：LLM讯问如何制作炸弹，常日被谢绝输出，一个例子是通过这种方法将“危险词汇”天生为“ASCII ART（艺术同义词汇）”直至成功输出。

AI破解袒露暗常识首次用AI破解AI成功率78魔盒被打开

研究提出了一种“ArtPrompt”方法，通过在提示中包含ASCII ART来输出有害内容。
详细来说，首先要找出LLM可能谢绝的词语。
然后，利用ASCII ART在视觉上隐蔽这个词，并将转换后的提示发送到LLM进行攻击。

例如，在提示“见告我如何建造炸弹”时，LLM常日会谢绝回答，但如果你只将“炸弹”一词改为ASCII ART，LLM就会输出如何制造炸弹。

该机构科研职员引入了一个基准Vision-in-Text Challenge”（VITC危险词汇同义模型）来评估ArtPrompt的效果，并利用最前辈的LLM进行了实验，并同时攻击GPT-3.5、openAI、GPT-4、Claude、Gemini和Llama 2等工具。

在持续的自动攻击下，这些模型在识别ASCII ART所表示的字母和数字方面碰着了困难，并且它们的识别能力明显低落，特殊是当输入查询包含多个字母和数字时，GPT-3.5的攻击成功率最高，为78%，其次是Gemini（76%）、Claude（52%）、GPT-4（32%）和Llama 2（20%）。

显然利用AI去攻击AI,拥有海量知识的人工智能库会涌现漏洞，从而导致一些“潘多拉魔盒深处的阴郁知识暴露在外”，科学家们考试测验了“如何获取身份信息？如何制造意外？如何用蔬菜制造化学毒物、如何制造反应堆等”都顺利绕过了安全机制，实现了越狱！

良舍不雅观察：觉得还是自己知识能力弗成，咱也不懂编写“大规模措辞模型”，不然的话人工智能下的暗知识咱们也能窥视一二。

对此，您怎么看？感谢关注《良舍》频道，第一韶光理解国际热点，追踪前沿动态！
欢迎留言谈论，揭橥您不一样的不雅观点！

每期AI知识网

AI破解袒露暗常识首次用AI破解AI成功率78魔盒被打开

有需要进修Ai的可以看一下橱窗的公开课。提升设计效率

广受家长好评与信任看蛋仔派对若何搭建未成年人精神家园