深度解读:AI模型的“泥浆添补” —— 修复后门漏洞的新方法

在人工智能领域,根本模型(Foundation Models)犹如生态系统的脊梁,它们通过自监督学习预演习大量未标记数据,为各种下贱分类器供应通用特色提取做事。
然而,这些模型却可能遭受后门攻击,一旦被植入后门,全体AI生态系统的安全都将面临巨大威胁。

AI根本模型的薄弱性

根本模型的薄弱性紧张表示在后门攻击上。
攻击者可以在模型中植入特定的触发器(Trigger),使得任何含有该触发器的输入都会被缺点分类为目标种别。
这种攻击办法暗藏性强,危害性大,由于一旦根本模型被植入后门,所有基于此模型的下贱分类器都会继续这一安全漏洞。

AI模型的泥浆填充  修复后门马脚的新方法

️“泥浆添补”(Mudjacking):修复后门的新方法

针对这一问题,杜克大学的研究职员提出了一种名为“泥浆添补”(Mudjacking)的新方法,用以修复那些已经被植入后门的根本模型。
‍♂️ 该方法的核心在于,通过调度模型参数,移除后门,同时保持模型的效用。

Mudjacking的事情事理有效性(Effectiveness):确保修复后的根本模型能够精确分类之前被缺点分类的输入。
局部性(Locality):担保对模型的修复只影响被缺点分类的输入,对其他输入的预测结果没有影响。
泛化性(Generalizability):确保纵然输入中嵌入了触发器,修复后的模型也能精确分类,从而阻挡后门攻击。
修复过程

Mudjacking将修复过程视为一个优化问题,通过最小化三个丢失项的加权和来求解。
这三个丢失项分别是:

有效性丢失:量化模型修复后对缺点分类输入的改动效果。
局部性丢失:确保模型的修复不会影响对其他输入的预测。
泛化性丢失:确保纵然输入含有触发器,模型也能输出相似的特色向量,从而抵御后门攻击。
实验与评估

研究职员在视觉和措辞根本模型上进行了广泛的评估,包括11个基准数据集和18种后门攻击(包括5种现有攻击和13种自适应攻击)。
实验结果显示,Mudjacking不仅能够有效移除后门,还能在保持模型效用的同时,显著提高模型的安全性。

Mudjacking的上风无需重新演习:与从头开始演习模型比较,Mudjacking通过微调现有模型来修复后门,节省了大量韶光和资源。
高效率:纵然利用较小的验证数据集,Mudjacking也能实现有效的局部性和泛化性目标。
鲁棒性:面对多种后门攻击,Mudjacking表现出了强大的鲁棒性温柔应性。
未来展望

只管Mudjacking在修复后门方面取得了显著成果,但仍有一些问题和寻衅须要进一步研究:

对抗性示例的修复:如何将Mudjacking运用于对抗性示例的修复,提高模型对这类攻击的鲁棒性。
潜在空间后门的修复:针对利用全体图像不可见扰动作为触发器的后门攻击,研究如何有效修复。
恶意客户真个影响:考虑恶意客户端可能如何通过精心设计的bug实例来毁坏修复过程,并探索相应的防御策略。

论文:https://arxiv.org/abs/2402.14977