Encountering shifted data at test time is a ubiquitous challenge when deploying predictive models. Test-time adaptation (TTA) methods address this issue by continuously adapting a deployed model using only unlabeled test data. While TTA can extend the model's lifespan, it is only a temporary solution. Eventually the model might degrade to the point that it must be taken offline and retrained. To detect such points of ultimate failure, we propose pairing TTA with risk monitoring frameworks that track predictive performance and raise alerts when predefined performance criteria are violated. Specifically, we extend existing monitoring tools based on sequential testing with confidence sequences to accommodate scenarios in which the model is updated at test time and no test labels are available to estimate the performance metrics of interest. Our extensions unlock the application of rigorous statistical risk monitoring to TTA, and we demonstrate the effectiveness of our proposed TTA monitoring framework across a representative set of datasets, distribution shift types, and TTA methods.


翻译:在部署预测模型时,测试阶段遇到分布偏移数据是一个普遍存在的挑战。测试时自适应(TTA)方法通过仅使用未标注的测试数据持续调整已部署模型来解决这一问题。尽管TTA可以延长模型的使用寿命,但这仅是一种临时解决方案。最终,模型可能会退化到必须下线并重新训练的程度。为了检测此类最终失效点,我们提出将TTA与风险监控框架相结合,该框架跟踪预测性能并在违反预设性能标准时发出警报。具体而言,我们扩展了基于置信序列序贯检验的现有监控工具,以适应模型在测试时更新且无法获取测试标签来估计目标性能指标的场景。我们的扩展使得严格的统计风险监控能够应用于TTA,并通过一系列具有代表性的数据集、分布偏移类型和TTA方法验证了所提出的TTA监控框架的有效性。

0
下载
关闭预览

相关内容

专知会员服务
23+阅读 · 2021年9月27日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 11月14日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员