AT-GAN:A Generative Attack Model译文.pdf-资料库

166f4b9b-d896-4a3e-a115-d73a5efd0af1.pdf-第1页.png

第1页 / 共15页

166f4b9b-d896-4a3e-a115-d73a5efd0af1.pdf-第2页.png

第2页 / 共15页

166f4b9b-d896-4a3e-a115-d73a5efd0af1.pdf-第3页.png

第3页 / 共15页

166f4b9b-d896-4a3e-a115-d73a5efd0af1.pdf-第4页.png

第4页 / 共15页

166f4b9b-d896-4a3e-a115-d73a5efd0af1.pdf-第5页.png

第5页 / 共15页

166f4b9b-d896-4a3e-a115-d73a5efd0af1.pdf-第6页.png

第6页 / 共15页

166f4b9b-d896-4a3e-a115-d73a5efd0af1.pdf-第7页.png

第7页 / 共15页

166f4b9b-d896-4a3e-a115-d73a5efd0af1.pdf-第8页.png

第8页 / 共15页

AT-GAN:一个生成对抗网络中用于对抗迁移的生成攻击模型 Xiaosen Wang, KunHe School of Computer Science and Technology Huazhong University of Science and Technology Wuhan 430074, China {xiaosen,brooklet60}@hust.edu.cn Chuan Guo, Kilian Weinberger, John Hopcroft Department of Computer Science, Cornell University Ithaca 14853, USA {cg563,kilian,jeh}@cornell.edu 摘要目前的一些研究发现了深度神经网络对对抗样本的不稳健性，这些对于人类来说难以察觉的对抗样本却能够轻易的欺骗深度神经网络 DNNs。现存的用于生成对抗样本的方法主要是在原图像上加上一些轻量级扰动，所以其最终生成的对抗样本也受到原正常样本的限制，即对抗样本与原正常样本间的矩阵范数会很小。在本文中，我们提出一个名为 AT-GAN 的新攻击模型。AT-GAN 能够使用生成对抗网络（GANs）由随机噪声直接生成对抗样本。其核心要义是对要攻击的目标分类器迁移一个预训练的 GAN 来生成对抗样本。一旦建立的模型进行迁移并用于攻击，AT-GAN 能够很有效的生成多样化的对抗样本。因而 AT-GAN 能够潜在的加速在防御方面的对抗训练。我们在 MNIST 数字手写数据库上运用典型防御方法并在灰箱和黑箱的环境下对 AT-GAN 进行了评估。经过大量的与现有的基准攻击方法的对比显示 AT-GAN 能够达到更高的攻击成功率。

1 绪论深度神经网络（DNNs）于近几年在计算机视觉的一些任务中展示出了极其优异的性能(Krizhevsky 等人, 2012; He 等人, 2016)。然而，DNNs 却被发现容易受到对抗样本的欺骗(Szegedy 等人, 2014)。根据鲁棒性和安全方面的含义，这种用于产生对抗样本的方法叫做攻击。同时一般将对抗攻击分为有目标的攻击和无目标的攻击等两类。有目标的攻击目的在于生成能够被归为特定类别的对抗样本，而无目标的攻击的目标在于生成无法归类正确的对抗样本。诸如 Fast Gradient Sign (FGSM) (Goodfellow 等人., 2015)和 Carlini-Wagner 攻击(C&W) (Carlini and Wagner, 2017)等的各式算法(Yuan 等人., 2017)被提出，并用于生成对抗样本。而对抗样本也可以用到训练中去来提高模型的鲁棒性，这也是被称为对抗训练的流行且有效的防御手段(Goodfellow 等人., 2015; Kurakin 等人., 2017; Song 等人, 2019)。大多数的攻击算法(Goodfellow 等人, 2015; Carlini and Wagner, 2017)都是基于梯度下降在输入端加上不可察觉的扰动来生成对抗样本，而这也意味着这样生成的对抗样本受到原图像的限制。Xiao 等人(2018)提出训练一个把原正常图片作为输入的生成器来生成扰动，故就能够欺骗目标模型。然而他们得到的结果仍然受到原始图像的限制。Song 等人(2018)提出一个利用目标分类器的梯度下降搜索任意噪声矢量附近的噪声输入的方法，使得这样的输入可以产生对抗样本。Song 等人(2018)称他们的方法的输出为不受限的对抗样本，因为其输出不受到原正常图像的限制。然而，因为使用梯度下降在原始噪声的邻域内寻找良好特性的噪声，故他们的输出仍受限于噪声输入。除此之外，他们的方法涉及到对梯度下降进行数百次迭代，导致效率低下。 xG()Gx()xGx

在本文中，我们提出了一种新的生成攻击模型 AT-GAN(在生成对抗网络上的对抗迁移)。我们首先训练一个生成对抗网络(GANs) (Goodfellow 等人, 2014)然后迁移标签以从随机噪声中生成对抗样本。注意到相较于 Song 等人(2018)，我们的输出真正不受限于输入。一旦我们的生成模型由生成正常图像迁移到生成对抗图像，它能够直接由任意随机噪声输入直接产生不受限制的对抗样本，因而具有更高的多样性。同时，我们的模型不依赖于梯度方法的迭代过程故生成过程非常高效。为了评估我们的攻击策略的有效性，我们尝试了几种模型从随机噪声中使用 AT-GAN 生成对抗样本，并将我们的模型与其他几种攻击方法在灰箱和黑箱攻击中进行了比较。然后，我们应用典型的防御方法(Goodfellow 等人, 2015; Madry 等人, 2017; Tramèr 等人, 2018)来抵御这些生成的对抗样本。实验结果表明，由 AT-GAN 生成的对抗样本具有较高的攻击成功率。我们主要的贡献如下：  与以往侧重于如何在原始图像中添加人为扰动的攻击方法不同，我们可以由随机噪声生成不受限制的对抗实例。  与基于优化的攻击不同，我们训练了一个条件生成网络来直接生成对抗样本，它不依赖于输入的梯度，使得基于梯度的防御更加困难，也提高了生成过程的效率。  与少数使用 GAN 进行攻击的方法不同，我们生成的图像具有更高的多样性，因为输出不受限于输入。  通过使用典型防御方法抵御对抗实例的大量实验表明，在灰箱和黑箱攻击中 AT-GAN 比其他现存的对抗攻击方法可达到更高的攻击成功率。

2 相关工作在本节中，我们将概述现有的用于生成对抗样本的典型的攻击方法，基于对抗训练的各种防御方法，GANs 和基于 GANs 的几种攻击。 2.1 DNNs 的典型攻击方法根据攻击者对模型了解程度，我们可以将攻击分为三种类型。第一类是白箱攻击，攻击可以完全了解目标模型。第二类是灰箱攻击(Xiao 等人，2018)，它在训练时需要 logits 输出，但可以在不了解目标模型的情况下生成对抗样本。最后一类是黑箱攻击(Papernot 等人, 2017)，攻击完全不了解目标模型。现存的黑箱攻击主要聚焦于迁移性上(Liu 等人, 2017; Bhagoji 等人, 2017)，一个模型生成的对抗实例可以直接迁移去攻击另一个模型。接下来，我们将介绍三种流行的对抗攻击的方法。所有的对抗样本的元素都限制在[0,1]之间。 Fast Gradient Sign Method (FGSM)：FGSM (Goodfellow 等人, 2015) 在输入 x 上增加训练损失 J 梯度方向的扰动，生成对抗样本。其中 y 是样本 x 的正确标签，是模型参数同时指定了失真介于 x 和之 (1) 间。 Projected Gradient Descent(PGD)：PGD 对抗者(Madry 等人,2017) 是一个多步骤 FGSM 变体，它用 FGSM 以预算迭代 k 次。 (2) ((,,y))advxxxsignJxladvx0advxx1(((,,)),,)tttttadvadvadvadvadvxxclipxsignJxyxxkadvadvxx

其中 y 是样本 x 的正确标签，是模型参数，为扰动上界且强制输入 x 留在[p,q]范围内。 Carlini-Wagner’s attack (CW- )：CW- (Carlini and Wagner, 2017)是一种基于优化的攻击方法，其将模型分类精度的可微代换 g 与 -惩罚项相结合。对于一个输入 x，它将会选择一个目标类别 (且此，是网络的输出) 并且寻找一个来最小化以下等式 (3) 其中并且是对输入 x 计算 logits 向量(即 softmax 层之前的输出)的操作。参数将激励求解器找到可以以高置信度被归类为目标类别 t 的对抗实例。更大的参数可以致使对抗样本更能够被归为某一类。随着每一次的迭代而逐渐减小且是失真的一个估计。 2.2 DNNs 中的防御手段虽然有诸如检测对抗干扰(Metzen 等人, 2017)、模糊梯度(Buckman 等人, 2018; Guo 等人, 2018)以及消除扰动(Shen 等人, 2017; 等人, 2018)等的各式防御策略，各种的对抗训练才是最为有效的方法(Athalye 等人, 2018)。因此，我们也将仅主要介绍对抗训练的方法。 Adversarial training：Szegedy(2014)和 Goodfellow(2015)等人首次引入对抗训练方法，将神经网络的标准损失函数 f 修改为如下: (4) 其中 y 是样本 x 的真实标签且是模型的参数。改进后的目标是通过对计入对抗样本进行惩罚来使得神经网络更加鲁棒。在训练期间，通过神经网络的当前状态计算对抗样本。取 FGSM 作为例子，相应的损失函数可以写为： (,,)clipxpqllllty(x)tyf(x)fmin ()[max((),0)]iicgx()max(max{():}Z(),)tytygxZxyyxZ()x0xl(,,y)(,,y)(1)(,,y)advffJxJxJx

(5) Ensemble adversarial training: Tramèr 等人(2018)提出了一种集合对抗训练的方法。与对抗训练不同，这里的 DNN 使用从一些固定的预训练过的模型迁移过来的对抗样本来进行训练。 Iterative adversarial training：Madry 等人(2017)提出使用由诸如 PGD 等迭代方法生成的对抗样本来训练 DNN。 2.3 生成对抗网络(GANs) 一个生成对抗网络(GAN) (Goodfellow 等人，2014)由两个相互对立训练的神经网络组成。生成器 G 通过优化来估计数据的分布，而鉴别器 D 的目标是区别出来自 G 的虚假样本和来自训练集的真实样本。因此 D 和 G 的目标可以表述为一个最小-最大值函数： (6) 条件生成对抗网(CGAN) (Mirza and Osindero, 2014)是 GAN 的第一个条件版本，它将条件与生成器和鉴别器的输入结合起来。Radford 等(2016)提出了一种深度卷积生成对抗网(DCGAN)，该网络利用卷积网络实现 GAN，并在训练过程中逐步稳定模型。辅助分类器 GAN (AC-GAN)是 GAN 的另一种变体，它通过一个额外的分类器在一定条件下扩展 GAN (Odena 等人，2017)。它的目标函数如下： (7) 2.4 基于 GANs 的 DNNs 的攻击基于 GANs 的攻击有少数几种，包括 AdvGAN(Xiao 等人，2018)、非受限对抗攻击(Song 等人, 2018)。基于 GANs 的防御方法有诸如 DeepDGA(Anderson 等 (,,y)(,,y)(1)(,((,,)),y)ffxJxJxJxsignJxy(,)VGD(x)(z)minmax(,)[log()][log(1(G(z)))]datazxpxpGDVGDEDxED(x)(z)(x)(z)minmaxmax(,)[log()][log(1(G(z)))] +[log(1(,))][logC(G(z,y),y)]datazdatazxpxpGDCxpxpVGDEDxEDECxyE

人, 2016)、Defense-GAN (Samangouei 等人，2018)及 APE-GAN (Shen 等人， 2017)等。在本章节中，我们将会介绍与 AT-GAN 相近的 AdvGAN 和非受限对抗攻击两种攻击。 AdvGAN:Xiao 等人(2018)提出以正常图像 x 为输入训练 AdvGAN 来产生扰动 G(x)，并使目标分类器 f 将 x + G(x) 分类到目标类别中。其目标函数表示为： (8) Unrestricted adversarial attacks:Song 等人(2018)提出在任意噪声向量搜索一个噪声输入用于 AC-GAN 来为目标模型 f 产生对抗样本。目标函数写为： (9) 我们提出的模型主要是基于 AC-GAN 实现的，但我们有不同的目标函数。我们的目标是生成的图像不仅在视觉上是真实的，而且会是目标分类器不能鉴别处理而错误分类的。我们的方法和上述的攻击也都不同，具体见接下来的章节。 3 由随机噪声生成对抗样本要使能够由随机噪声生成对抗样本，我们应该找到一个满足以下条件的生成器： (10) 这里的是要攻击的分类器，z 为随机噪声，y 是真实标签，是目标标签，同时代表标签为 y 的图像的集合。然而这个问题却难以求解，故我们提出了一个新的名为 AT-GAN 的模型，如图 1 所示。训练 AT-GAN 有两个阶段。在第一阶段，我们训练 GAN 模型来生成 ty(z)2minmax(,,)E[log()]E[log(1(()))] +E((),y)Emax(0,||G()||c)zxzPGDxtxVGDfDxDxGxfxGxx0z*z*(,)sGzy*0*11argminmax{|zz|,0}log((,),)miistzizfGzyymattackGtarget(G(z,y)) .. (z,y)S,attacktattackytfystGyytargetftySy

图像，故可以得到一个生成器。然后，我们迁移来攻击图 1： AT-GAN 的结构 AT-GAN 相似于 AC-GAN 且第一阶段训练为 AC-GAN。对 G 进行训练后，复制原始模型来得到初始攻击模型并且根据要攻击的目标分类器迁移。经过训练后，AT-GAN 可以由生成对抗样本 3.1 训练初始生成器图 1 中的左边部分说明了原始 AC-GAN 的总体架构。且此处有三个神经网络：一个生成器 G、一个鉴别器 D 和一个分类器 f。生成器 G 以随机噪声 z 作为输入并以标签 y 作为输出来生成图像。它的目标是生成一张鉴别器 D 不可区分的图像且使分类器 f 输出标签 y。G 的损失函数为： (11) 这里的 H(a,b)为 a 和 b 之间的熵。鉴别器 D 以训练数据 x 和生成的数据作为输入并尝试取区分它们。D 的损失函数可以写为： (12) 分类器 f 则将训练数据 x 和生成的数据作为输入并预测相应的标签。与其他分类器一样，模型仅在训练数据上进行训练。分类器的损失函数为： (13) 这一阶段的目标就是训练一个生成器 G，其能够输出真实的样本，所以之后我们 originalGoriginalGtargetforiginalGattackGattackGattackG(,)Gzy(,)Gzy(z)(z)(x,y)E(D(G(z,y)),1)E(f(G(z,y)),y)zzGzPzpLHH(,)Gzy(x)(z)(x,y,z)E(D(x),1)E(D(G(z,y)),0)datazDxpzpLHH(,)Gzy(x)(x,y)E(f(x),y)datafxpLH

资料库

AT-GAN:A Generative Attack Model译文.pdf

相关推荐

人工智能

热门标签

最新资料