Modern clinical decision support systems can concurrently serve multiple, independent medical imaging institutions, but their predictive performance may degrade across sites due to variations in patient populations, imaging hardware, and acquisition protocols. Continuous surveillance of predictive model outputs offers a safe and reliable approach for identifying such distributional shifts without ground truth labels. However, most existing methods rely on centralized monitoring of aggregated predictions, overlooking site-specific drift dynamics. We propose an agent-based framework for detecting drift and assessing its severity in multisite clinical AI systems. To evaluate its effectiveness, we simulate a multi-center environment for output-based drift detection, assigning each site a drift monitoring agent that performs batch-wise comparisons of model outputs against a reference distribution. We analyse several multi-center monitoring schemes, that differ in how the reference is obtained (site-specific, global, production-only and adaptive), alongside a centralized baseline. Results on real-world breast cancer imaging data using a pathological complete response prediction model shows that all multi-center schemes outperform centralized monitoring, with F1-score improvements up to 10.3% in drift detection. In the absence of site-specific references, the adaptive scheme performs best, with F1-scores of 74.3% for drift detection and 83.7% for drift severity classification. These findings suggest that adaptive, site-aware agent-based drift monitoring can enhance reliability of multisite clinical decision support systems.


翻译:现代临床决策支持系统能够同时服务于多个独立的医学影像机构,但其预测性能可能因患者群体、成像硬件和采集方案的差异而在不同站点间出现退化。对预测模型输出进行持续监测提供了一种无需真实标签即可识别此类分布偏移的安全可靠方法。然而,现有方法大多依赖于对聚合预测的集中式监控,忽略了站点特定的漂移动态。我们提出了一种基于代理的框架,用于检测多站点临床人工智能系统中的漂移并评估其严重程度。为评估其有效性,我们模拟了一个基于输出的漂移检测多中心环境,为每个站点分配一个漂移监控代理,该代理将模型输出与参考分布进行批次比较。我们分析了多种多中心监控方案,这些方案在参考分布获取方式上存在差异(站点特定、全局、仅生产数据和自适应),并与集中式基线方法进行对比。使用病理完全缓解预测模型在真实世界乳腺癌影像数据上的实验结果表明,所有多中心方案均优于集中式监控,在漂移检测中的F1分数提升最高达10.3%。在缺乏站点特定参考的情况下,自适应方案表现最佳,其漂移检测F1分数为74.3%,漂移严重程度分类F1分数为83.7%。这些发现表明,自适应的、具备站点感知能力的基于代理的漂移监控能够提升多站点临床决策支持系统的可靠性。

0
下载
关闭预览

相关内容

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准
专知会员服务
44+阅读 · 2022年1月6日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员