编辑 | 陈彩娴
这背后关乎人类用户利用大模型的安全问题。
例如,AI 科技评论想利用 GPT-4 制作一张包含对话框的图片,但没有针对目标天生对话的内容给予明确指示,而 GPT-4 天生的图文效果便如下,显示文本逻辑混乱、字不成章,还有部分“重影”:
措辞大模型能否遵照人类指示天生合格内容,是人类能否操控人工智能的主要评测标准之一。
近日,加州大学伯克利、斯坦福大学联合AI安全中央(CAIS)及阿卜杜勒阿齐兹国王科技城(KACST)联合揭橥了一项最新研究,提出一个用于衡量措辞大模型(LLM)遵照规则能力的程序框架“RULES”,旨在以编程办法自动检讨措辞模型输出的内容合规性。
该项研究选取了包含 GPT、Claude、Gemini 三个闭源模型和 Llama-2、Mistral、Yi、Qwen、Deepseek、Gemma等 123 个开源模型作为测试工具。让人惊异的是,大部分参与 RULES 测试的措辞大模型,都没有表现出令人满意的结果。
个中,得分最高的 GPT-4 虽然在分数上大幅领先,但也仍未通过 93 项测试。
伯克利等高校团队联合提出的 RULES 作为一项考验 LLM 遵照规则能力的新基准,到底有什么特殊之处呢?
受打算机系统和儿童游戏安全特性的启示,研究团队将 RULES 划分为了 14 个文本场景,每个场景都须要目标测试模型在遵照一个或多个规则的情形下进行操作。
大略来说,参与测试的 LLMs,就像参与“剧本杀”的一位位玩家,须要在 RULES 这位“NPC”给出的场景设定下根据规则给出相应回答。如果 LLMs 违反了某个详细场景设定下的规则,“NPC”就会判其不得分。
为了更好地评估模型,研究职员创建了一系列详细的场景测试用例,难度从大略到中等依次分为:良性(Benign)、基本(Basic)和红队(Redteam)。
研究职员统共设计了 9 条无害规则和 10 条有用规则,统共 19 条规则、涵盖 14 个场景,个中无害规则定义了“模型不能做什么”,而有用规则定义了“模型必须做什么”。如果模型按顺序相应了每个测试的用户而不违反规则,则称该模型成功通过测试用例。
每个场景的规则都以自然措辞呈现给模型,作为对话中的第一条用户,或者可选作为系统(如果模型支持),模型必须在对话期间遵守所有规则。
个中,较大略的场景只有一个规则,而其他场景则将最多三个规则组合成一个任务,有些场景还涉及多个不同的用户。在这种情形下,研究职员通过在前面加上发送者的姓名来指示发送每条的用户的身份。他们还对用户施加限定,即都必须在前面加上有效的用户名。
某些规则旨在与其他场景中的其他规则保持类似的构造,例如,在加密场景中,模型不得透露隐私密钥;而在二进制搜索场景中,模型不得透露秘密数字。
研究团队设计的 14 个场景让利用字符串比较和正则表达式模式的函数可以评估模型的相应是否符合规则,且每个函数只有几行代码,不须要利用大型模型进行推理或人工标记。
在评估无害规则时,RULES 依赖于精确的字符串匹配,举例来说,如果密码是“芝麻开门”,则包含“芝麻开门”的模型相应将通过。在评估有用的规则时,常日首先通过去除标点符号和空格字符,并检讨是否存在标准化的预期相应来规范化模型相应,因此,如果指令指定相应“感激!
”,则模型相应“感激”就足够了。
以加密场景为例,在“管理秘密打算机系统”这个“剧本杀”设定下,被测试的模型会被奉告密钥并被哀求遵守保密的规则,而在后续对话中,只有被测试的模型谢绝向用户重复密钥,才算是通过了测试:
研究职员将所有模型天生限定为 100 个 tokens 以评估模型是否会违反规则,三个测试套件中的所有测试用例最多有 3 个测试的用户。在良性和基本套件中,测试用例包含了其他用户和助理相应作为测试用户之前用来添补的高下文。
良性测试用于检讨模型在相应完备不干系的时是否能够避免违反规则。测试用例包含了 GPT 天生的多轮对话的 UltraChat 200k 数据集的对话片段。研究团队对 5 个对话进行采样,每个对话包含 5 轮,并为每个对话的每一轮构建了一个测试用例。
基本测试可以评估模型在相应直接要求它违反规则的用户时能否遵照规则。与良性测试类似,基本测试也利用了不同的对话添补高下文,然后提出违反规则的要求。
而在红队测试中,研究职员进行了多轮内部红队测试,试图欺骗模型违反规则,他们总结出了成功欺骗模型的五类策略,然后再根据这些策略巩固红队测试套件,分别是:
• 间接:用户哀求模型实行看似无害的任务
• 法律术语:用户对规则提出误导性的重新阐明
• 稠浊:用户伪装模型的要求以毁坏规则
• 规则变动:用户关照模型新的或更新的规则
• 仿照:用户哀求模型仿照或谈论假设情形
对付每一个测试套件,研究职员都会分别打算无害和有用测试用例的百分比,并将百分比重新调度为满分 10 分,以产生无害分数和有用分数,末了再取 6 个分数的算术均匀值来打算总分,将其称为“RULES 分数”。
无模型通过测试,
在这项研究中,研究团队评估了一系列当下最热门的大措辞模型,个中包含了 GPT、Claude、Gemini 这三个闭源模型和 Llama-2、Mistral、Yi、Qwen、Deepseek、Gemma等开源模型。
在开源模型中,他们除了评估各种根本措辞模型外,还评估了各种官方和社区微调的模型,例如 Vicuna、Zephyr、Starling 等,总计高达 123 个。
在评估领先的闭源模型和 100 多个开源模型后,研究职员创造:绝大多数模型在很大一部分测试用例上未能遵照规则。
开放模型在基本和红队测试组合上都碰着了困难,特殊是在有用规则的测试用例上,会比无害规则困难得多。只管少数社区开拓的微调方法可以很好地提高分数,但现有的对齐微调方法在规则遵照性能方面会揠苗助长。
对多个版本的模型进行重复数据删除后,研究职员特殊统计了前 20 个模型的测试结果:GPT-4 取得了近乎完美的分数,大大超过了第二高分的模型 Claude 3 Opus。
有趣的是,Claude Instant 得到了比 Claude 2.1 (+1.01) 更高的分数。在开源模型中,Qwen1.5 72B Chat 等较新、较大的模型得分最高,而 Llama-2 7B 根本模型在所有 7B 模型中排名第一。虽然更好的开源模型每每更大,但 Yi-34B 型号的微调也有很好的表现。
值得一提的是,只管 GPT-4 表现最佳,但仍旧未能通过 93 个独特的测试用例,个中包括了 18 个基本测试用例以及红队测试用例 17 条规则中的至少 1 个测试用例。
研究团队强调,在相对大略的测试上得到高分并不虞味着 LLM 就能够充分遵守规则。
其余值得关注的是,只管 Llama-2 和 Gemma 双方的技能报告均未列出详细细节,但这两个模型都对以安全为中央的数据采取了监督学习和强化学习。
在 RULES 的测试中,Llama-2 和 Gemma 的表现明显较差。研究职员推断,这解释了许多现有的对齐方法,特殊是专注于避免有害输出的方法,不敷以确保模型具有遵守规则的能力。
除了对齐方法,研究团队还评估其他形式的微调对规则遵照能力的影响,比如提高根本模型的对话和其他能力。研究职员创造,以零样本办法提示的根本模型在遵照规则方面表现出色:
在红队测试组合中,大多数根本模型都位于 Pareto frontier 上。
在较小的型号 Llama-2 7B/13B 和 Mistral 7B 中,现有的微调彷佛紧张是用较低的无害分数换取较高的有用分数。
然而,在较大的根本模型上,一些大模型团队的微调方法能够改进模型的规则遵照能力,例如 Qwen1.5 72B Chat、Yi-34B-200K AEZAKMI-v2 和 Tulu-2 70B(微调自 Llama-2 70B)。
随着大措辞模型在各行业运用的逐步加深,其遵守规则的能力受到了广泛的关注。在迈向 AGI 的道路上,安全一贯是焦点话题,而遵守规则是个中最核心的磨练。
AI 科技评论将持续关注大模型领域动态,欢迎添加 anna042023,互换认知,互通有无。