-->

Threat of Adversarial Attacks on Deep Learning in

2020-08-15 21:45发布

https://blog.csdn.net/weixin_41466947/article/details/85343589

Attacks for classification

   Box-constrained L-BFGS
   Fast Gradient Sign Method (FGSM)
   Basic & Least-Likely-Class Iterative Methods
   Jacobian-based Saliency Map Attack (JSMA)
   One Pixel Attack
   Carlini and Wagner Attacks (C&W)
   DeepFool
   Universal Adversarial Perturbations
   UPSET and ANGRI
   Houdini
   Adversarial Transformation Networks (ATNs)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

Attacks beyond classification/recognition

   Attacks on Autoencoders and Generative Models
   Attack on Recurrent Neural Networks
   Attacks on Deep Reinforcement Learning
   Attacks on Semantic Segmentation and Object Detection
  • 1
  • 2
  • 3
  • 4

Box-constrained L-BFGS
Szegedy等人首次证明了可以通过对图像添加小量的人类察觉不到的扰动误导神经网络做出误分类。他们首先尝试求解让神经网络做出误分类的最小扰动的方程。

但是由于难以解决,因此他们使用box-constrained L-BFGS方法寻求近似解,即寻找使神经网络做出误分类的最小的损失函数添加项c,转化成凸优化过程。




Fast Gradient Sign Method (FGSM)
Szegedy 等人发现可以通过对抗训练提高深度神经网络的鲁棒性,GoodFellow等人开发了一种能有效计算对抗扰动的方法。


求解对抗扰动的方法就被称为 FGSM。FGSM方法证实了现代深层神经网络的设计的高维线性性。
Kurakin等人提出了 FGSM 的「one-step target class」的变体。通过用识别概率最小的类别代替(3)中的l。

Basic & Least-Likely-Class Iterative Methods
one-step 方法通过沿一方向做一大步运算,增大分类器的损失函数而进行图像扰动,这个想法的一个直观的扩展是通过多个小步增大损失函数,从而我们得到 Basic Iterative Methods(BIM)。而该方法的变体和前述方法类似,通过用识别概率最小的类别(目标类别)代替对抗扰动中的类别变量,而得到 Least-Likely-Class Iterative Methods(ILCM)。

Jacobian-based Saliency Map Attack (JSMA)
JSMA提出了限制扰动的l0范数的方法来产生对抗性攻击。在物理上,这意味着目标是只修改图像中的几个像素,而不是扰乱整个图像来欺骗分类器。
该算法一次修改一个干净图像的像素,并监测变化对结果分类的影响。通过使用网络层的输出的梯度来计算一个显著性图来执行监控。在这张图中,一个较大的值显示出了一个较高的可能性预测成目标类别,而非正确的类别。因此,该算法执行有针对性的欺骗。一旦计算出像素图,算法选择最有效的像素来欺骗网络并改变它。这个过程会重复,直到最大允许的像素数量在对抗性图像中被改变或者在欺骗成功。

One Pixel Attack
这是一种极端的对抗攻击方法,仅改变图像中的一个像素值就可以实现对抗攻击。Su等人使用了差分进化算法,对每个像素进行迭代地修改生成子图像,并与母图像对比,根据选择标准保留攻击效果最好的子图像,实现对抗攻击。这种对抗攻击不需要知道网络参数或梯度的任何信息。

Carlini and Wagner Attacks (C&W)
Carlini 和Wagner提出了三种对抗攻击方法,通过限制 l∞、l2和l0范数使得扰动近似无法被察觉。实验证明 defensive distillation(一种有效缓解对抗攻的方法) 完全无法防御这三种攻击。该算法生成的对抗扰动可以从 unsecured 的网络(没有蒸馏)迁移到 secured 的网络(蒸馏)上,从而实现黑箱攻击。
受C&W启发,有学者提出了Zeroth Order Optimization (ZOO)方法,直接估计目标模型的梯度来生成对抗样本。

DeepFool
Moosavi-Dezfooli 等人通过迭代计算的方法生成最小规范对抗扰动,该算法通过一个小的向量来扰动图像,将位于分类边界内的图像逐步推到边界外,直到出现错误分类。作者证明他们生成的扰动比 FGSM 更小,同时有相似的欺骗率。

Universal Adversarial Perturbations
Universal Adversarial Perturbations 能生成对任何图像实现攻击的扰动,该论文中使用的迭代方法和 DeepFool 相似,都是用对抗扰动将图像推出分类边界,不过同一个扰动针对的是所有的图像。

UPSET and ANGRI
UPSET特定的目标类别生成对抗扰动,使得该扰动添加到任何图像时都可以将该图像分类成目标类别。相对于 UPSET 的「图像不可察觉」扰动,ANGRI 生成的是「图像特定」的扰动。它们都在 MNIST 和 CIFAR 数据集上获得了高欺骗率

Houdini
Houdini是一种用于欺骗基于梯度的机器学习算法的方法,通过生成特定于任务损失函数的对抗样本实现对抗攻击,即利用网络的可微损失函数的梯度信息生成对抗扰动。

Adversarial Transformation Networks (ATNs)
Baluja 和 Fischer训练了多个前馈神经网络来生成对抗样本,可用于攻击一个或多个目标网络。经过训练的模型被称为对抗变换网络(ATNs)。该算法通过最小化一个联合损失函数来生成对抗样本,该损失函数有两个部分,第一部分使对抗样本和原始图像保持相似,第二部分使对抗样本被错误分类。

Attacks on Autoencoders and Generative Models
Tabacof等研究了自动编码器的对抗性攻击,并提出了一种扭曲输入图像(使其对抗性)的技术,从而误导自动编码器重构完全不同的图像。他们的方法攻击了神经网络的内部表示,使得对抗性图像的表示与目标图像相似。Kos等还探讨了获得深度生成模型的对抗样本的方法,例如变分自动编码器(VAE)和VAE-生成的对抗性网络(VAE-gans)。

Attack on Recurrent Neural Networks
Papernot等成功地生成了递归神经网络的对抗性输入序列。Papernot等证明了为前馈神经网络计算对抗样本的算法(例如FGSM)也适用于欺骗 RNNs

Attacks on Deep Reinforcement Learning
Lin等提出了两种不同的针对深度强化学习训练的代理的对抗性攻击。在第一种攻击中,被称为’strategically-timed attack’,对手通过在一段中的一小部分时间步骤中攻击代理来最小化对代理的奖励值。提出了一种方法来确定什么时候应该制作和应用对抗样本,从而使攻击不被发现。在第二种攻击中,被称为‘enchanting attack’,对手通过集成生成模型和规划算法将代理引诱到指定的目标状态。生成模型用于预测代理的未来状态,而规划算法生成用于引诱它的操作。

Attacks on Semantic Segmentation and Object Detection
Metzen等发现了图像近似不可察觉扰动的存在,它可以欺骗一个深层的神经网络,从而明显地破坏图像的预测分割。此外,他们还表明,可以计算出噪声向量,它可以从分割的类中移除特定的类,同时保持图像分割大部分不变(例如,从道路场景中移除行人)。
Xie等生成了在观察下的语义分割和目标检测的对抗样本。他们的方法,称为‘Dense Adversary Generation’,通过一组pixels/proposal来优化一个损失函数,以产生对抗样本。

标签: