An exciting recent development is the uptake of deep learning in many scientific fields, where the objective is seeking novel scientific insights and discoveries. To interpret a learning outcome, researchers perform hypothesis testing for explainable features to advance scientific domain knowledge. In such a situation, testing for a blackbox learner poses a severe challenge because of intractable models, unknown limiting distributions of parameter estimates, and high computational constraints. In this article, we derive two consistent tests for the feature relevance of a blackbox learner. The first one evaluates a loss difference with perturbation on an inference sample, which is independent of an estimation sample used for parameter estimation in model fitting. The second further splits the inference sample into two but does not require data perturbation. Also, we develop their combined versions by aggregating the order statistics of the $p$-values based on repeated sample splitting. To estimate the splitting ratio and the perturbation size, we develop adaptive splitting schemes for suitably controlling the Type \rom{1} error subject to computational constraints. By deflating the \textit{bias-sd-ratio}, we establish asymptotic null distributions of the test statistics and their consistency in terms of statistical power. Our theoretical power analysis and simulations indicate that the one-split test is more powerful than the two-split test, though the latter is easier to apply for large datasets. Moreover, the combined tests are more stable while compensating for a power loss by repeated sample splitting. Numerically, we demonstrate the utility of the proposed tests on two benchmark examples. Accompanying this paper is our Python library {\tt dnn-inference} https://dnn-inference.readthedocs.io/en/latest/ that implements the proposed tests.
翻译:令人振奋的近期发展是在许多科学领域进行深层次的学习, 目标是寻求新的科学洞察和发现。 为了解释学习结果, 研究人员对可以解释的特征进行假设测试, 以推进科学领域知识。 在这种情况下, 测试黑盒学习者带来了严峻的挑战, 原因是模型复杂, 参数估计分布不明, 计算限制程度高。 在本篇文章中, 我们得出两个一致的测试, 测试黑盒学习者特征的相关性。 第一个是评估损失差异, 与反复引用的科学发现和发现不同。 第一个是评估推断样本的扰动差异, 这是独立于用于模型安装的参数估计样本。 第二个是进一步将推断样本分成分为两个, 但不需要数据渗透。 另外, 我们通过根据反复的样本分裂, 将美元价值的顺序统计统计统计统计数据汇总成一个组合。 要估计断裂率和扰动度的大小, 我们开发了适应性断裂分法的系统, 用于正确控制类型/ 精确度/ 精确度基准的误差是计算限制 。 通过淡化的纸面 { 度/ 精度 度 精度/ 精度 精度 度 度 度 精度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 精度 - 度 度 度 度 度 度 度 测试值 度 度 度 度 度 度 度 度 度 度 度 度 度 度 测试度 度 测试度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 值 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度