PatchGuard: A Provably Robust Defense against Adversarial Patches via Small Receptive Fieldsand Masking

https://github.com/inspire-group/PatchGuard

本地对抗补丁,目标是通过修改一个图像中某一区域的任意像素点,诱导机器学习模型误分类。这种攻击可以通过将对抗补丁添加到待误分类的目标在物理世界中发生,但是防御这种攻击依然是开放问题。本文中提出了一种通用防御框架--PatchGuard,能够实现很高的可证明鲁棒型,同时保持很高精确度,用于对抗本地化对抗补丁。PatchGurad利用了带有小视野的CNN来限制被对抗补丁破坏的特征数量。给定一有限数量的损坏特征,设计对抗补丁防御的问题减少到设计一个安全特征合并机制。基于此,本文展示了鲁棒掩码防御机制,可以鲁棒地检测和掩盖受损坏特征并恢复正确的预测。值得注意的是,作者可以证明该防御机制对于威胁模型中任意攻击者的鲁棒性。在ImageNet和ImageNette、CIFAR-10数据集上测试,表明防御实现了最先进的性能,包括可证明鲁棒性精确度和清洁精确度。

Introduction

机器学习模型对于逃逸攻击是脆弱的,攻击者只需要对于一个测试用例添加一个小的扰动,就可以导致模型误分类。

本文提出了一种通用防御框架PatchGuard,可以实现最先进的可证明鲁棒性同时保持高精确度

  • 使用带有小感受视野的CNN:本文基于一个能限制被对抗补丁损坏的特征的小感受视野CNN,CNN的感受视野就是输入图像的某个区域,某个特征受这个区域的影响,模型预测人基于从图像不同区域提取特征的合并。出现在感受视野中一个小的补丁,如果这个补丁出现在最多的特征中,就可以很容易更改预测结果。一个小的感受视野可以限制被损坏特征的数量,作为鲁棒分类器的基础。
  • 使用安全合并和鲁棒性掩码:小感受视野不足以作为鲁棒预测,因为卷积模型使用不安全的特征合并机制,例如平均。小感受视野的使用将问题转化成设计一个可以防御对抗补丁的安全合并问题,并提出了鲁棒掩码,作为安全特征合并机制。目的是配合前两个机制,用来检测和掩盖这些不正常特征。经验上移除一些小特征不会改变模型预测,因此在所有损坏特征被掩盖的情况下,鲁棒掩码可以恢复正确的预测。
  • 可证明鲁棒性
  • 最先进的性能

贡献

  1. 描述了使用基于小感受视野的鲁棒性并且利用其开发出通用防御框架PatchGuard,可以和任何带有小感受视野的CNN和任何安全合并机制兼容
  2. 展示了作为一种安全合并机制实例的鲁棒掩码,对于任何威胁模型内的攻击者带来的认证图像攻击,可以带来可证明鲁棒型并且恢复正确的预测
  3. 在ImageNet/ImageNette/CIFAR-10上深度平度了防御机制,演示了最先进的可证明鲁棒精确度和清洁精确度

Methodology

为什么对抗补丁是有效的

  • 本地特征的大感受视野中的小对抗补丁可以改变本地预测
  • 对抗补丁创建大的恶意本地特征值,导致线性特征合并不安全

PatchGuard

如图1,

带有小感受视野的CNN M,特征提取器F(x)从输入图像x产生一个特征张量u,u可能是模型预测。小感受视野保证了只有小部分特征会被对抗补丁损坏。然而,这些特征不安全的合并还会导致误分类,因此需要鲁棒掩码算法。即使用小卷积核。

利用经验找到非正常的预测,掩盖错误预测。