Gradient-based explanation methods play an important role in the field of interpreting complex deep neural networks for NLP models. However, the existing work has shown that the gradients of a model are unstable and easily manipulable, which impacts the model's reliability largely. According to our preliminary analyses, we also find the interpretability of gradient-based methods is limited for complex tasks, such as aspect-based sentiment classification (ABSC). In this paper, we propose an \textbf{I}nterpretation-\textbf{E}nhanced \textbf{G}radient-based framework for \textbf{A}BSC via a small number of explanation annotations, namely \texttt{{IEGA}}. Particularly, we first calculate the word-level saliency map based on gradients to measure the importance of the words in the sentence towards the given aspect. Then, we design a gradient correction module to enhance the model's attention on the correct parts (e.g., opinion words). Our model is model agnostic and task agnostic so that it can be integrated into the existing ABSC methods or other tasks. Comprehensive experimental results on four benchmark datasets show that our \texttt{IEGA} can improve not only the interpretability of the model but also the performance and robustness.
翻译:基于梯度的解释方法在为 NLP 模型解释复杂的深神经网络方面发挥着重要作用。 然而, 目前的工作表明, 模型的梯度不稳定且容易操作, 这在很大程度上影响了模型的可靠性 。 根据我们的初步分析, 我们还发现, 基于梯度的方法的可解释性对于复杂的任务有限, 例如基于方位的情绪分类( ABSC) 。 在本文件中, 我们提议了一个梯度修正模块, 以提高模型对正确部分的注意( 例如, 意见词) 。 我们的模型是用于\ textbf{ G} 基于直线框架的模型, 用于\ textbf{ A} BSC, 并且通过少量的解释说明, 也就是\ textt\\ iEGA} BSC, 很容易影响模型的梯度框架。 特别是, 我们首先根据梯度来计算基于梯度的字级的显性地图, 以测量该句对特定方面的重要性。 然后, 我们设计一个梯度修正模型模块, 以提高模型对正确部分的注意度( 例如, 意见单词 ) 。 我们的模型是模型的模型和任务基于 度框架的基于框架的基于框架的框架的 度框架的模型的模型的模型, 和任务, 也无法将显示现有的实验性能将显示我们现有的实验性能 测试性能 。 。