多样性可以转移：白盒和黑盒攻击的输出多样化（转移攻击）

摘要

对抗性攻击通常涉及从均匀分布或高斯分布中提取的输入的随机扰动，例如，初始化基于优化的白盒攻击或在黑盒攻击中生成更新方向。然而，这些简单的扰动可能是次优的，因为它们与被攻击的模型无关。为了提高这些攻击的效率，我们提出了输出多样化采样 (Output Diversified Sampling ODS)，这是一种新颖的采样策略，旨在最大限度地提高生成样本中目标模型输出的多样性。虽然 ODS 是基于梯度的策略，但 ODS 提供的多样性是可转移的，并且可以通过代理模型对白盒和黑盒攻击有所帮助。根据实验，我们证明 ODS 显着提高了现有白盒和黑盒攻击的性能。特别是，ODS 将 ImageNet 上最先进的黑盒攻击所需的查询数量减少了两倍。

1 介绍

深度神经网络在图像分类方面取得了巨大成功。然而，众所周知，它们容易受到对抗性实例的影响——人类无法察觉的小扰动会导致分类器输出错误的预测。一些研究侧重于提高模型对这些恶意扰动的鲁棒性。

强大的攻击方法对于评估分类器和防御机制的鲁棒性至关重要。

输入空间中的随机采样可能无法充分探索神经网络的输出（logits）空间——输入空间的多样性不会直接转化为深度非线性模型的输出空间的多样性。我们在图 1 的左侧面板中说明了这种现象。当我们向输入空间中的图像添加随机扰动时（参见图 1 第一个图中的蓝色虚线箭头），相应的输出 logits 可能与原始输出非常相似图像（如图 1 的第二个图所示）。根据实验，我们观察到这种现象会对攻击方法的性能产生负面影响。

图 1 随机抽样（蓝色虚线箭头）和 ODS（红色实线箭头）之间的差异说明。在每个图中，黑色“o”对应原始图像，白色“o”代表采样扰动。（左）：白盒设置。通过最大化输出空间中的距离来生成输入空间中 ODS 的扰动。（右）：黑盒设置。在代理模型上制作的扰动很好地转移到目标模型上的扰动。

为了克服这个问题，我们提出了一种采样策略，旨在获得在输出空间中多样化的样本。我们的想法是扰动一个远离原始输入的输入，这是由输出空间中的距离直接测量的。（参见图 1 中第二个图中的红色实线箭头）。首先，我们在输出空间中随机指定一个方向。接下来，我们执行基于梯度的优化以在输入空间中产生在指定方向产生较大变化的微扰。我们称这种采样技术为输出多样化采样（ODS）。

ODS 可以改善白盒和黑盒设置下的对抗性攻击。对于白盒攻击，我们利用 ODS 来初始化寻找对抗样本（称为 ODI）的优化过程。 ODI 通常为对抗性攻击提供更加多样化（和有效）的起点。此外，这种初始化策略与底层攻击方法无关，可以结合到大多数基于优化的白盒攻击方法中。从实验上讲，我们证明 ODI 与朴素的初始化方法相比提高了 l∞ 和 l2 攻击的性能。特别是，使用 ODI 的 PGD 攻击优于针对预先训练的防御模型的最先进的多目标攻击，比 CIFAR-10 上的计算复杂度降低了 50 倍。

在黑盒设置中，我们不能直接应用 ODS，因为我们无法访问目标模型的梯度。作为替代方案，我们将 ODS 应用于代理模型，并观察到结果样本相对于目标模型是不同的：输出空间转移的多样性（参见图 1 中最右边的两个图）。从实验上讲，我们证明 ODS 可以将基于分数的攻击所需的查询数量在 ImageNet 上减少两倍。ODS 也显示出比 P-RGF 更好的查询效率，这是另一种利用代理模型改进黑盒攻击的方法。这些使用 ODS 的攻击比最先进的 Square Attack 实现了更好的查询效率。此外，与最先进的 HopSkipJump 和 Sign-OPT 攻击相比，具有基于决策的攻击（BoundaryAttack）的 ODS 将对抗样本的中值扰动距离减少了三倍。

2 初步准备

我们将一个图像分类器表示为

，其中 x 是输入图像，z 代表输出层中的 logits 值，C 是类的数量。我们用

来表示模型预测，其中 fc(x)是第 f(x)的第 c 个元素

对抗性攻击可分为针对性攻击和非针对性攻击。给定一个图像 x、一个标签 y 和一个分类器 f，无针对性攻击的目的是找到一个和 x 相似但会导致错误分类 h(Xª ͩ ͮ) ≠y 的对抗样本 Xª ͩ ͮ。在有针对性的设置中，攻击者的目标是将模型预测 h(Xª ͩ ͮ)更改为特定的目标标签 t≠y。对抗性攻击的典型目标是找到一个对抗样本 Xª ͩ ͮ 满足

，即围绕原始图像 x 的半径球。另一个常见的设置是找到一个与原始图像距离最小的有效对抗样本。

白盒攻击

在白盒设置中，攻击者可以访问目标模型的完整信息。

黑盒攻击

在黑盒设置中，攻击者只能访问目标模型的输出而不知道其架构和权重。基于转移的攻击针对代理模型制作白盒对抗样本，并将它们转移到目标模型。代理模型通常使用与目标模型相同的数据集进行训练，以便使它们彼此接近。

3 输出多样化采样

如图 1 直观地显示，输入空间中的随机采样不一定会产生在输出空间中测量的具有高度多样性的样本。为了解决这个问题，我们提出了输出多样化抽样（ODS）。给定一个图像 x，一个分类器 f 和多样化的方向

，我们定义 ODS 的归一化扰动向量如下：

其中 Wd 是从[-1,1]ͨ 上的均匀分布中采样。下面我们将展示如何使用 ODS 增强白盒和黑盒攻击。

3.1 使用 ODS 初始化白盒攻击

在白盒设置中，我们利用 ODS 进行初始化 (ODI) 来生成输出多样化的起点。给定原始输入 Xorg 和 ODSWd 的方向，我们尝试通过以下迭代更新最大化

来找到尽可能远离 Xorg 的重启点 x

，其中 B(Xorg)是允许的扰动集，通常是 lp 范式中的 ε-ball, ηODI 是步长。在将 ODI 应用于 l2 攻击时，我们省略了 sign 函数。经过 ODI 的一些步骤后，我们从 ODI 获得的重启点开始攻击。我们为每次重启采样一个新的方向，以获得多样化的攻击起点。

ODI 的一个采样步骤与大多数基于梯度的攻击（例如 PGD）的一次迭代花费的时间大致相同。根据实验，我们观察到 ODI 步骤数 NODI=2 已经足以获得多样化的起点（敏感性分析的详细信息在附录 C.2 中）。我们强调，ODS 不仅限于 PGD，还可以应用于广泛的基于优化的对抗性攻击。

增加多样性的实验验证：

我们根据输出值 f(x) 的成对距离定量评估起点的多样性，证实了图 1 左侧两个图中的直觉。我们以 CIFAR-10 上的稳健模型作为目标模型的示例，并使用 ODI 和标准统一初始化生成起点以计算平均成对距离。 ODI 获得的成对距离（即多样性）为 6.41，大约是统一初始化（0.38）的 15 倍。此外，具有与 ODI 相同步骤的 PGD 不会生成不同的样本（成对距离为 0.43）。

算法 1 使用 ODS 的简单黑盒攻击

3.2 使用 ODS 对黑盒攻击的更新方向进行采样

在黑盒设置中，我们使用 ODS 来采样更新方向而不是随机采样。相反，我们引入了一个代理模型并计算了 ODS 向量 V ODS(X,g,Wd).

ODS 可以应用于依赖于输入空间中随机采样的攻击方法。在本文中，我们将 ODS 应用于两种流行的使用随机抽样的黑盒攻击：基于决策的边界攻击和基于分数的简单黑盒攻击。此外，我们将 ODS 与 P-RGF 进行了比较，这是另一种使用代理模型的攻击方法。

增加多样性的实验验证：

我们定量评估 ODS 可以导致目标模型的输出空间中的高度多样性，如图 1 右侧两个图所示。我们使用 ImageNet 上预训练的 Resnet50 和 VGG19 模型作为目标和代理模型。我们使用 ODS 和随机高斯采样计算和比较样本的平均成对距离。 ODS 的成对距离（即多样性）为 0.79，比高斯采样（0.07）大 10 倍。我们还观察到，当我们使用随机网络作为代理模型时，ODS 不会产生多样化的样本。这表明良好的代理模型对于转移多样性至关重要。

4 白盒设置实验

在本节中，我们展示了 ODI 提供的多样性可以改善 l∞ 和 l2 距离的白盒攻击。此外，我们证明了 PGD 和 ODI 的简单组合实现了新的最先进的攻击成功率。所有的实验都是针对无针对性的攻击。

4.1 ODI 对白盒攻击的有效性

我们将 ODI 与两种流行的攻击相结合：PGD 攻击与 l∞ 范式和 C&W 攻击与 l2 范式。我们在 MNIST、CIFAR-10 和 ImageNet 上运行这些攻击。

设置

5 黑盒设置实验

在本节中，我们证明黑盒攻击与 ODS 相结合显着减少了生成对抗性示例所需的查询数量。

表 1 比较不同的白盒攻击。我们报告了 PGD 的模型精度（越低越好），以及 C&W 的最小 l2 扰动的平均值（越低越好）。所有结果均为 3 次试验的平均值

结果

我们总结了表 1 中的所有定量结果。对于所有模型和攻击，使用 ODI 的攻击性能优于初始初始化。当目标模型包含更多非线性变换时，输入和输出空间之间的多样性差异可能更大，在这种情况下，ODI 将更有效地提供不同的重启集。

4.2 PGD 攻击与 ODI 和最先进的攻击之间的比较

为了进一步证明 ODI 的威力，我们在 MNIST 和 CIFAR-10 上针对 MadryLab 的强大模型执行 ODI-PGD，并将 ODI-PGD 与最先进的攻击进行比较。

设置

表 2 ODI-PGD 与针对预训练防御模型的最新攻击的比较。复杂度行显示步数和重启数的乘积。 ODI-PGD 的结果是三个试验的平均值。对于 ODI-PGD，步骤数是 ODS 和 PGD 步骤的总和

结果

我们在表 2 中总结了 ODI-PGD 和最先进攻击之间的比较。我们调整后的 ODI-PGD 将 MNIST 模型的准确度降低到 88.13%，将 CIFAR-10 模型的准确度降低到 44.00%。这些结果优于现有的最先进的攻击。

为了比较它们的运行时间，我们将总步数（步数乘以重启次数）作为复杂度的度量。在表 2 中，调整后的 ODI-PGD 的计算成本比最先进的攻击小，尤其是在 CIFAR-10 上小 50 倍。令人惊讶的是，即使不调整 ODI-PGD（在第一列中）仍然可以胜过调整后的 PGD，同时在计算上也更加高效。

5.1 使用 ODS 的基于分数的攻击的查询效率

5.1.1 将 ODS 应用于基于分数的攻击

为了展示 ODS 的效率，我们将 ODS 与基于分数的简单黑盒攻击（SimBA）相结合。

设置

结果首先，我们比较 SimBA-DCT 和 SimBA-ODS。表 3 报告了查询次数和中值 l2 扰动。值得注意的是，与 SimBA-DCT 相比，SimBA-ODS 将平均查询次数减少了 2 到 3 倍，无论是非目标设置还是目标设置。这证实了 ODS 不仅有助于白盒攻击，而且显着提高了黑盒设置中的查询效率。此外，SimBA-ODS 将平均扰动大小降低了大约两倍，这意味着 ODS 有助于找到更接近原始图像的更好的对抗样本。

表 3 基于分数的攻击的查询数量和 l2 扰动的大小。

5.1.2 使用代理模型将 ODS 与其他方法进行比较

我们考虑另一种依赖于代理模型的黑盒攻击：P-RGF，它改进了用于梯度估计的原始 RGF（无随机梯度）方法。 P-RGF 利用代理模型的先验知识来比 RGF 更有效地估计梯度。由于 RGF 使用随机采样来估计梯度，我们建议将 ODS 应用于 RGF（新攻击名为 ODS-RGF）并在 l2 和 l∞ 范数下将其与 P-RGF 进行比较。

表 4

在所有设置中，ODS-RGF 所需的平均查询次数均少于 P-RGF。这表明 ODS-RGF 通过利用通过 ODS 和代理模型获得的多样性可以比 P-RGF 更精确地估计梯度。 ODS-RGF 和 P-RGF 之间的差异在目标设置中是显着的，因为 ODS-RGF 实现的扰动比 P-RGF 小（参见中值扰动列）。

我们还考虑了 TREMBA，这是一种黑盒攻击（仅限于 l∞-范数），在使用代理模型的人中是最先进的。我们的结果表明，ODS-RGF 与 SI-NI-DIM [35] 相结合，这是一种最先进的基于传输的攻击，即使 ODS-RGF 不受 l∞-范数的限制，它也可以与 TREMBA 相媲美。

5.1.3 ODS 与最先进的基于分数的攻击的比较

为了展示 ODS 和代理模型的优势，我们将 SimBA-ODS 和 ODS-RGF 与 Square Attack [23] 进行了比较，这是在不允许代理模型的情况下对 l∞ 和 l2 范数的最新攻击。

表 5 使用 ODS 与 Square Attack 进行攻击的查询数量

如表 5 所示，ODS-RGF 和 SimBA-ODS 所需的查询数量低于 l2 范式下的 Square Attack。 ODS-RGF 的改进尤其大。 ODS-RGF 和 SimBA-ODS 的区别主要来自不同的基础攻击（即 RGF 和 SimBA）。对于 l∞ 范式设置，ODS-RGF 可与 Square Attack 相媲美。我们假设 RGF 估计梯度的好处在 l∞ 范数下由于符号函数而减少。但是，由于 ODS 可以与许多基础攻击自由组合，因此更强的基础攻击可能会进一步提高查询效率。

5.2 使用 ODS 的基于决策的攻击的查询效率

我们证明 ODS 还提高了基于决策的攻击的查询效率。我们将 ODS 与基于决策的边界攻击[17]相结合。

设置

结果

表 6 总结了通过固定数量的查询获得的 2 个对抗性扰动的中值大小。显然，与原始边界攻击相比，边界 ODS 显着提高了查询效率。我们还在图 2 中描述了中值 l2 扰动与查询数量之间的关系。边界扰动查询数是最低的。

表 6 边界 ODS 和基于决策的最先进攻击的中值 l2 扰动

图 2 中值 l2 扰动与基于决策的攻击的查询数量之间的关系。

5.3 分布外图像的 ODS 的有效性

即使我们只有有限的分布外（OOD）数据集并且可能仅包含具有不相关标签的图像，ODS 也是适用的。

如表 7 所示，虽然带有 OOD 训练数据集的 Boundary-ODS 的性能不如带有完整数据集的 Boundary-ODS，但它仍然明显优于带有随机采样的原始 Boundary Attack。这表明，即使我们只有 OOD 图像来训练代理，ODS 实现的改进的多样性也改进了黑盒攻击。

表 7 具有在 OOD 图像上训练的代理模型的 Boundary-ODS 的中值 l2 扰动

6 结论

我们提出了 ODS，这是一种用于白盒和黑盒攻击的新采样策略。通过在输出空间中产生更多不同的扰动，ODS 可以为白盒攻击创建更有效的起点。利用代理模型，ODS 还改进了对黑盒攻击的输出空间的探索。此外，即使代理模型是使用分布外数据集训练的，用于黑盒攻击的 ODS 也是适用的。因此，使用 ODS 的黑盒攻击比使用普通代理模型的其他黑盒攻击更实用。我们的实证结果表明，使用现有攻击方法的 ODS 在各种白盒和黑盒设置中优于最先进的攻击。虽然我们只关注具有使用标记数据集训练的替代模型的 ODS，但 ODS 也可以使用未标记数据集很好地工作，我们将其作为未来的工作。另一个方向是通过选择合适的具有强化学习的替代模型来提高 ODS 的效率。

致谢

本文由南京大学软件学院 2021 级硕士洪华翻译转述。