论文笔记:Interpretability Beyond Feature Attribution:Quantitative Testing with Concept Activation Vectors (TCAV)

Contents

  1. 1. 核心思想

论文Interpretability Beyond Feature Attribution:Quantitative Testing with Concept Activation Vectors (TCAV)的阅读笔记。

PyTorch版本代码 → Github,我在别人的基础上修改,一个能跑的版本。

使用“概念激活向量”提供卷积分类模型的解释,一种全局的解释方法。

核心思想

是输入空间,是特征空间(最后一层卷积,提取得到的高层次特征),是输出空间,卷积分类器可以表示为如下复合函数:

中指向某概念的向量(概念样本和随机样本在的线性边界的单位法向量),则计算函数沿着的方向导数,作为该样本对该概念的敏感度(concept sensitivity)。

将方向导数在样本点的值,解释为样本受概念影响的程度,然后使用目标类别的待测数据集算出该模型对该类别、该概念的TCAV值。

排除无意义CAV的可能性,需要多次实验,并作双边T检验。

Contents

  1. 1. 核心思想