Automating the calculation of clinical risk scores offers a significant opportunity to reduce physician administrative burden and enhance patient care. The current standard for evaluating this capability is MedCalc-Bench, a large-scale dataset constructed using LLM-based feature extraction and rule-based aggregation. However, treating such model-generated benchmarks as static oracles risks enshrining historical model errors as evaluation gold standards, a problem dangerously amplified when these datasets serve as reward signals for Reinforcement Learning (RL). In this work, we propose viewing benchmarks for complex tasks such as clinical score computation as ''in-progress living documents'' that should be periodically re-evaluated as the processes for creating them improve. We introduce a systematic, physician-in-the-loop pipeline that leverages advanced agentic verifiers to audit and relabel MedCalc-Bench, utilizing automated triage to reserve scarce clinician attention for the most contentious instances. Our audit reveals that a notable fraction of original labels diverge from medical ground truth due to extraction errors, calculator logic mismatches, and clinical ambiguity. To study whether this label noise meaningfully impacts downstream RL training, we fine-tune a Qwen3-8B model via Group Relative Policy Optimization (GRPO) and demonstrate that training on corrected labels yields an 8.7% absolute improvement in accuracy over the original baseline -- validating that label noise materially affects model evaluation. These findings underscore that in safety-critical domains, rigorous benchmark maintenance is a prerequisite for genuine model alignment.


翻译:自动化计算临床风险评分为减轻医师行政负担和提升患者护理质量提供了重要机遇。当前评估该能力的标准是MedCalc-Bench——一个通过基于LLM的特征提取和基于规则的聚合构建的大规模数据集。然而,将此类模型生成的基准视为静态标准,存在将历史模型错误固化为评估金标准的风险,当这些数据集作为强化学习(RL)的奖励信号时,该问题会被危险地放大。本研究提出将临床评分计算等复杂任务的基准视为"进行中的动态文档",应随创建流程的改进而定期重新评估。我们引入一个系统化的医师参与流程,利用先进的智能验证器对MedCalc-Bench进行审计和重标注,通过自动分诊机制将稀缺的临床医师注意力保留给最具争议的案例。审计显示,由于提取错误、计算器逻辑不匹配和临床模糊性,相当比例的原标注与医学事实存在偏差。为探究这种标注噪声是否显著影响下游RL训练,我们通过组相对策略优化(GRPO)对Qwen3-8B模型进行微调,结果表明在修正标注上训练可使准确率较原始基线获得8.7%的绝对提升——这证实了标注噪声实质影响模型评估。这些发现强调,在安全关键领域,严格的基准维护是实现真正模型对齐的前提条件。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2021年6月19日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员