报告:Interpretable Visual Explanations for the Inference of CNN

作者:Matthew D.Zeiler, Jost Tobias Springenberg

发表:ECCV(2015), ICLR(2015), CVPR (2016), ICCV(2017)

CNN已经在序列数据的分类与特征学习问题上取得了巨大的成功,但是深度学习模型仍然是一个黑箱,其推断过程复杂难以直观理解。CNN可视化技术利用梯度作为动力,对模型的推断结果自动生成可解释的视觉映射。该领域的代表作有4篇,按时间顺序依次为: 1 2 3 4. 本文对这4篇代表作进行综述性介绍,并给出对无监督特征提取模型生成视觉解释的办法。

组会报告PDF链接

卷积神经网络与梯度下降法介绍

卷积神经网络

卷积运算是一种对序列数据进行特征匹配的方法, 卷积运算的输出是若干个相邻输入的加权求和。卷积运算常用于处理时间序列数据(金融数据, 经济数据), 以及空间序列数据(图数据,图像数据等)。

卷积神经网络是一种由多层卷积运算构成的模型,它能够将输入通过一层一层的过滤分解为不同粒度的特征,并在不同的粒度上学习相应的特征。每经过一层卷积层,特征就会在不同卷积核下分离,同时每一个分离特征的粒度则会损失一些,这个过程就是从细粒度特征(fine-grained) 到粗粒度特征(coarse-grained) 的分解过程。

卷积神经网络具有序列不变性,即它的所有特征层都保留了输入空间对应的序列关系,而这些序列关系在做出判断时非常重要。

cnn-1

梯度下降法

对于一个复杂的模型损失函数 $f(\theta;X)$ 而言,我们总可以在 $\theta$ 离 $\theta_0$ 不远的地方把它写成

利用这个近似公式, 如果我们给定一个比较小的区域$\theta \in (\theta_0-d,\theta_0+d)$, 在这个区域里,我们想要找到$f(\theta)$的最小值, 就应该利用该近似公式,将求$f(\theta)$的最小值的问题转化为求近似的一次方程最小值的问题。显然,这个一次线性函数最小值是沿着$-f^′ (θ_0 )$的方向前进d步长而得到的. 这里$d$就对应于学习率。一个优化过程如下图所示:

2

3

可解释视觉映射:找到模型推断依据

当我们说深度模型的可解释性的时候,我们在说什么?用动力学理论打开黑箱,用扰动理论构造对抗样本,还有——用视觉解释模型做出推断的依据。位置,轮廓,注意力焦点都是很好的依据,如下图所示,当模型判断这个人具有胸腔积液的时候,我们希望同时能得到模型的判断依据——积液位置与积液轮廓

4

细粒度方法

负梯度方向是让损失函数变得更小的方向,训练过程中,我们令参数沿着负梯度方向不断前进,使得参数能够拟合数据。一个很自然的想法是,当参数固定以后,我们能不能通过计算数据的梯度,来得到目标参数推断所对应于数据的焦点呢?对于分类得分$y$,我们想看看增强输入图像的哪些部分可以让模型对当前分类更加地有信心, 那么我们可以沿着梯度方向,即沿着让$y$变得更大的方向来激活输入,从而得到对应的细粒度(fine-grained) 视觉解释,如图所示

5

粗粒度方法

细粒度将梯度转变为输入空间的激活,但是这种激活没有具备分层功能,受限于相关性,对输入空间的激活往往容易同时激活原图中多个彼此相关的目标。如我们希望得到狗的推断信心更大,但是可能同时也会激活猫的轮廓,这就是未分层导致的相关性作祟。利用卷积神经网络的序列不变性,我们可以对粗粒度的分层特征同样进行梯度激活,并将激活结果直接插值到与输入空间相同大小,从而获得粗粒度的视觉解释。这种映射方法的梯度计算公式为

6

因子激活映射:从分类器到无监督特征Embedding模型

以上4篇文章的方法有以下3个局限之处:

  1. 仅能对分类器的embedding进行映射,无法进一步扩展到所有embedding方法
  2. 需要知道真实的分类标签,但是很多特征映射方法并没有标签
  3. 有时候,我们并不仅仅想知道某一个潜变量空间维度所对应的映射,我们希望知道几个潜变量联合起来的视觉解释是什么

我们提出了自己的方法,对无监督VAE所提取的因子进行因子激活映射,大致思路如下:

首先,对于一个VAE模型

7

我们通过训练ELBO得到它的因子分布,然后通过因子分布损失计算因子激活映射

8

1. Visualizing and understanding convolutional networks
2. Striving for simplicity: The all convolutional net
3. Learning Deep Features for Discriminative Localization
4. Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization