机器学习(ML)系统正日益部署在高风险领域中,在这些场景下,可靠性至关重要。随着这些系统从研究原型走向真实世界的决策角色,它们识别并响应不确定性的能力变得尤为关键。本论文探讨了不确定性估计如何提升机器学习的安全性与可信度,重点关注选择性预测这一范式——在模型置信度较低时主动放弃预测。
我们首先展示,模型的训练轨迹中蕴含着可用于不确定性估计的丰富信号,而无需修改模型架构或损失函数。通过集成训练过程中的中间检查点预测结果,我们提出了一种轻量级、事后(post-hoc)弃答机制,能够识别不可靠预测。该方法可适用于分类、回归和时间序列任务,可直接叠加在已有模型之上,避免了深度集成(deep ensembles)带来的高额训练成本,同时保留了其大部分效果。在多个选择性预测基准任务上,该方法达到了当前最优性能,为那些重新训练成本高昂或受限的场景提供了实用方案。 这种被动、事后的方法还天然满足数据隐私这一可信 AI 的关键要求。由于仅需观察训练轨迹,我们的方法可与差分隐私(DP)等形式化隐私保障完全兼容。这一独特优势使我们能够研究一个重要的权衡问题:隐私约束会如何影响模型估计自身不确定性的能力?我们发现,许多常规方法在 DP 噪声下性能退化,产生不可靠的置信度评分;相比之下,我们基于轨迹的方法保持稳健。为公平评估这一权衡,我们提出了一个新框架,可隔离隐私对不确定性质量的影响,从而更有意义地比较隐私敏感场景下的选择性预测方法。 这些结果引出了对选择性预测性能理论极限的探讨。我们提出了有限样本下的选择性分类差距分解(selective classification gap decomposition)——即模型精度–覆盖率曲线偏离理想(oracle)曲线的分解,并识别出五类关键误差来源:贝叶斯噪声、近似误差、排序误差、统计波动和残差项。该分解揭示了可以缩小差距的杠杆(如校准、模型容量、额外监督),并解释了为什么单纯的事后校准无法消除排序缺陷,从而激发了基于更可靠不确定性信号的预测重排序方法。
这一分析为诊断并修复模型的良性误差来源提供了蓝图。然而,它假设模型的不确定性信号虽有缺陷,但仍然真实反映了其内部状态。这促使我们进一步研究当不确定性信号被恶意篡改以误导下游决策时会发生什么。我们展示了,排序和校准机制本身可能被对手操控,在特定区域或特定用户群体中人为增加不确定性,从而在保持高预测性能的同时实现隐蔽的拒绝服务。这类攻击直接利用了我们识别的误差来源,且难以通过标准评估检测。为此,我们提出防御方案,将校准审计与可验证推理相结合,以验证弃答是否源于真实的不确定性,从而保障其完整性。这一发现突显了一个更广泛的观点:可信 ML 不仅依赖于高质量的不确定性估计,还必须防范其被操纵。 综上所述,本论文系统研究了不确定性的估计、评估与防护路径,推动构建更可靠的机器学习系统。最终,所得到的系统不仅能做出准确预测,还能在必要时果断地说:“我不知道”。