所有文章 > 正文

【NAACL 2019论文】纠正归因谬误——注意力没有解释模型

作者: 江抱石

浏览量: 1410

时间: 2019-06-04 08:49

关键词: NAACL,注意力机制

过往的研究常常有这样的归因谬误,认为带注意力机制的神经网络中,学出的注意力分布似乎能决定模型输出。最近的一篇NAACL文章(Jain, 2019),从对抗注意力机制和特征重要性两个维度,以丰富的实验指明、分析了这一谬误。

注意力机制

注意力机制是一种神经网络模型的结构,经常被用于NLP任务上。它在输入上引入了一个分布,称为注意力分布。注意力分布常常被认为解释了神经网络为何能成功应用于对应任务(Li, 2016)。

举一个情感分析任务中的例子。如下图左侧,为了解释模型输出负面情感的原因,过往文献通常画出模型学习到的注意力分布,并指出词“waste”上的注意力值最大。其暗含的意思是:不用怀疑啦,模型和人一样,都主要从这个负面词汇中推断出了整段话有负面情感。然而,该文章却发现,保持模型其他参数不变,而仅修改注意力分布,使其主要部分在“was”和“myself”上,模型的输出结果不变化。此时要怎么解释呢?如果遵循过往推理,就得说“was”是个负面词汇,那便很可笑了。

如情感分析任务一样,文本分类任务、问答任务等NLP任务也经常把注意力分布作为解释模型输出的依据。所有这类推断,都面临不同注意力分布导致相同结果的问题。最严重的问题在于,当注意力分布被调整得和原始分布完全相反时,即对抗注意力分布(adversarial attention),模型输出仍可能相同。事实上,该文进行了如下实验,说明这种调整是简单可行的。

对抗注意力分布

文中在8个经典NLP任务上,尝试构建了对抗注意力分布,如下图所示。不同的颜色代表不同的分类类别。可见,在标签变化很小(纵轴)时,注意力分布可以大不一样(横轴),即对抗注意力分布和原始分布的JS距离可以超过0.6。且这些JS距离大的样本占比不少,这说明对抗注意力分布广泛存在。

从映射的角度讲,注意力分布并不决定模型输出,即其他因素不变时,从注意力分布到输出空间的函数,往往不是双射,这一点符合直觉。关键的地方在于,过往在注意力分布上赋予了太多语义层面的信息,如分布概率高的地方说明对输出重要,于是常见一些以注意力分布值为温度的输入-输出热力图。对抗注意力分布的广泛存在,说明这一实践不像看上去的那样有理。

注意力分布与特征重要性的相关性

在神经网络模型的解释方面,除了注意力分布和输出间的热力图,还有一些工作,从传统机器学习引入特征重要性(feature importance),期望做出解释。比如,基于梯度(gradient)的重要性衡量标准,记为Tg,衡量的是所有其他因素不变,某一特征的微小扰动对输出的影响。又如,基于去除某特征(Leave one out)的衡量标准,记为Tloo,衡量的是所有其他因素不变,去除某一特征对输出的影响。虽然这些衡量标准只关心单一特征,远远称不上完善的解释,但一定程度它们确实能提供明确的某一特征和模型输出的关系。

文中的实验却表明,注意力分布与特征重要性只呈现弱相关性,且这一相关性往往还不一致。如下图所示,在八个常用数据集上,Tloo和Tg之间的相关性,平均就比Tloo和注意力分布间的相关性强(大约强0.2Tloo)。文中同样给出这一相关性也比Tg和注意力分布间的相关性强。

需要注意,特征重要性并非解释模型的黄金标准,且各种解释之间的相关性到底需要多大,并无一个标准。然而,注意力分布与各个衡量特征重要性的标准均表现出较弱的相关性,确实督促研究者重新审视过往认为注意力分布有解释能力的判断。

结语

注意力机制学出来的注意力分布并不能决定神经网络模型的输出。为找到解释神经网络的方法,我们需要另辟蹊径。另一个有趣的问题是,为什么不使用对抗学习时,通常学出的注意力分布表现得像能解释模型一样。这也有待探索。

参考文献:

Jain, Sarthak and Byron C. Wallace. “Attention is not Explanation.” ArXiv abs/1902.10186 (2019): n. pag.

Jiwei Li, Will Monroe, and Dan Jurafsky. 2016. Understanding neural networks through representation erasure. arXiv preprint arXiv:1612.08220.

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

[关于转载]:本文转载于江抱石,仅用于学术分享,有任何问题请与我们联系:report@aminer.cn。