2020-12-13 论文笔记 论文笔记:Interpretability Beyond Feature Attribution:Quantitative Testing with Concept Activation Vectors (TCAV) Contents 1. 核心思想 论文Interpretability Beyond Feature Attribution:Quantitative Testing with Concept Activation Vectors (TCAV)的阅读笔记。 PyTorch版本代码 → Github,我在别人的基础上修改,一个能跑的版本。 使用“概念激活向量”提供卷积分类模型的解释,一种全局的解释方法。 核心思想是输入空间,是特征空间(最后一层卷积,提取得到的高层次特征),是输出空间,卷积分类器可以表示为如下复合函数: 设为中指向某概念的向量(概念样本和随机样本在的线性边界的单位法向量),则计算函数沿着的方向导数,作为该样本对该概念的敏感度(concept sensitivity)。 将方向导数在样本点的值,解释为样本受概念影响的程度,然后使用目标类别的待测数据集算出该模型对该类别、该概念的TCAV值。 排除无意义CAV的可能性,需要多次实验,并作双边T检验。 Newer 论文笔记:Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis Older 论文笔记:Axiomatic Attribution for Deep Networks, ICML 2017