Explainable AI transforms opaque decision strategies of ML models into explanations that are interpretable by the user, for example, identifying the contribution of each input feature to the prediction at hand. Such explanations, however, entangle the potentially multiple factors that enter into the overall complex decision strategy. We propose to disentangle explanations by finding relevant subspaces in activation space that can be mapped to more abstract human-understandable concepts and enable a joint attribution on concepts and input features. To automatically extract the desired representation, we propose new subspace analysis formulations that extend the principle of PCA and subspace analysis to explanations. These novel analyses, which we call principal relevant component analysis (PRCA) and disentangled relevant subspace analysis (DRSA), optimize relevance of projected activations rather than the more traditional variance or kurtosis. This enables a much stronger focus on subspaces that are truly relevant for the prediction and the explanation, in particular, ignoring activations or concepts to which the prediction model is invariant. Our approach is general enough to work alongside common attribution techniques such as Shapley Value, Integrated Gradients, or LRP. Our proposed methods show to be practically useful and compare favorably to the state of the art as demonstrated on benchmarks and three use cases.
翻译:可以解释的AI 将ML模型的不透明决定战略转换为用户可以解释的解释,例如,确定每个输入特征对当前预测的贡献,确定每个输入特征对当前预测的贡献。但是,这些解释会将进入整个复杂决定战略的全面复杂决定战略的潜在多重因素纠缠在一起。我们提议在激活空间时找到相关的子空间,以找到可被映入更抽象的人类可理解概念的激活空间中的相关子空间,从而解开解释,从而找到可以被映入更抽象的人类可理解概念,并能够对概念和输入特征进行共同归属;为了自动提取理想的表述,我们提议新的子空间分析公式,将常设和子空间分析原则扩大到解释。这些新分析,我们称之为主要相关组成部分分析(PRCA)和分解相关子空间分析(DRSSA),但这种新分析会将潜在的因素分析(DRCSA)和分解的相关子空间分析(DRSA)、优化预测启动的预期启动活动的相关性,而不是更传统的差异或骨质性,我们提议的方法能够更加侧重于与预测和解释真正相关的子空间,特别是忽视预测模型的激活或概念,我们的方法,我们的方法足以与预测模型的通用工作与基准一起工作与工作与工作,我们所显示的实用基准。我们拟议的方法显示的实用,我们所展示的、实用基准,我们所展示的各种方法将显示的比较,并显示的、实际基准,我们展示的各种方法显示,并显示,并显示,显示的、试验的、实际基准,显示的各种方法显示,显示,显示的、实用基准,显示的、试验的各种方法和试验的、试验的、试验的、试验的、试验,显示,显示的、试验,显示,显示的、试验的、试验的、试验的、试验的、试验的、试验的、试验,显示,显示的、试验的、试验的、试验的、试验、试验的、试验的、试验的、试验的、试验的、试验的、试验,显示的、试验、试验、试验、试验的、试验,显示和试验,显示的、试验的、试验的、试验的、试验的、试验的、试验的、试验的、试验的、试验的、试验的、试验的、试验的、试验的、试验的、试验的、试验的、试验,显示和试验的、试验的、试验的