Due to their power and ease of use, tree-based machine learning models have become very popular. To interpret these models, local feature attributions based on marginal expectations e.g. marginal (interventional) Shapley, Owen or Banzhaf values may be employed. Such feature attribution methods are true to the model and implementation invariant, i.e. dependent only on the input-output function of the model. By taking advantage of the internal structure of tree-based models, we prove that their marginal Shapley values, or more generally marginal feature attributions obtained from a linear game value, are simple (piecewise-constant) functions with respect to a certain finite partition of the input space determined by the trained model. The same is true for feature attributions obtained from the famous TreeSHAP algorithm. Nevertheless, we show that the "path-dependent" TreeSHAP is not implementation invariant by presenting two (statistically similar) decision trees computing the exact same function for which the algorithm yields different rankings of features, whereas the marginal Shapley values coincide. Furthermore, we discuss how the fact that marginal feature attributions are simple functions can potentially be utilized to compute them. An important observation, showcased by experiments with XGBoost, LightGBM and CatBoost libraries, is that only a portion of all features appears in a tree from the ensemble; thus the complexity of computing marginal Shapley (or Owen or Banzhaf) feature attributions may be reduced. In particular, in the case of CatBoost models, the trees are oblivious (symmetric) and the number of features in each of them is no larger than the depth. We exploit the symmetry to derive an explicit formula with improved complexity for marginal Shapley (and Banzhaf and Owen) values which is only in terms of the internal parameters of the CatBoost model.
翻译:基于树的机器学习模型因其功率和使用方便而变得非常流行。 要解释这些模型, 可以使用基于边际( 干预) Shapley、 Owen 或 Banzhaf 值等边际期望的本地特性属性。 这种特性属性属性方法对模型和实施不轨( 仅取决于模型的输入输出功能) 。 我们利用基于树的模型的内部结构, 证明它们的边际沙普利值, 或从线性游戏值获得的更一般的边际复杂性参数属性参数参数, 与经过训练的模型确定的输入空间的某个有限分布功能相比, 本地特性属性。 这种特性属性方法对模型和实施模式是真实的, 也就是仅仅通过两个( 统计相似的) 决策树来计算精确函数, 而算出不同的特性的排序, 而边际的精度值是相同的。 此外, 我们讨论一个事实, 边际( 假的) 边际( 默认) 将边际特性特性属性作为边际( 边际) 边际( 边际) 的边际) 的特性特性的分布( 将一个简单的观察模型作为 X 的边际( 的边际) 的边际) 的边际), 可以将所有 的 的 的 的 的 的 直的 的 的 的 直函数, 的 直立的 直立的 直立的 的 直立的 直立的 的 的 的 的 直立的 的 的 的 的 的 直径径直径直径差的 的 的 的 的 的 的 的 的 直 直的 直的, 直 直 直 直 直 直 直 的 的 直 直 直 直 直 直 直 直 直 直 直 直 。 直 直 直 到 直 到 的 的 直 到 的 直 到 直 到 直 到 的 直 到 的 的 的 直 到 的 的 的 直 到 直 到 直 到 直 到 直 到 。