Recent advances in medical large language models (LLMs), multimodal models, and agents demand evaluation frameworks that reflect real clinical workflows and safety constraints. We present MedBench v4, a nationwide, cloud-based benchmarking infrastructure comprising over 700,000 expert-curated tasks spanning 24 primary and 91 secondary specialties, with dedicated tracks for LLMs, multimodal models, and agents. Items undergo multi-stage refinement and multi-round review by clinicians from more than 500 institutions, and open-ended responses are scored by an LLM-as-a-judge calibrated to human ratings. We evaluate 15 frontier models. Base LLMs reach a mean overall score of 54.1/100 (best: Claude Sonnet 4.5, 62.5/100), but safety and ethics remain low (18.4/100). Multimodal models perform worse overall (mean 47.5/100; best: GPT-5, 54.9/100), with solid perception yet weaker cross-modal reasoning. Agents built on the same backbones substantially improve end-to-end performance (mean 79.8/100), with Claude Sonnet 4.5-based agents achieving up to 85.3/100 overall and 88.9/100 on safety tasks. MedBench v4 thus reveals persisting gaps in multimodal reasoning and safety for base models, while showing that governance-aware agentic orchestration can markedly enhance benchmarked clinical readiness without sacrificing capability. By aligning tasks with Chinese clinical guidelines and regulatory priorities, the platform offers a practical reference for hospitals, developers, and policymakers auditing medical AI.


翻译:近期医疗大语言模型、多模态模型及智能体的进展,要求评估框架能反映真实临床工作流程与安全约束。我们推出MedBench v4,这是一个全国性云基准测试基础设施,包含超过70万项专家标注的任务,涵盖24个主要专科与91个次级专科,并设有针对大语言模型、多模态模型及智能体的专用赛道。所有项目经过来自500多家机构的临床医生多阶段优化与多轮评审,开放式回答则由经过人工评分校准的LLM-as-a-judge进行评分。我们评估了15个前沿模型。基础大语言模型的平均总分为54.1/100(最佳模型:Claude Sonnet 4.5,62.5/100),但安全与伦理得分仍较低(18.4/100)。多模态模型整体表现更差(平均47.5/100;最佳模型:GPT-5,54.9/100),感知能力较强但跨模态推理较弱。基于相同骨干构建的智能体显著提升了端到端性能(平均79.8/100),其中基于Claude Sonnet 4.5的智能体在总体任务上最高达85.3/100,在安全任务上达88.9/100。因此,MedBench v4揭示了基础模型在多模态推理与安全性方面仍存在差距,同时表明具备治理意识的智能体编排能显著提升基准测试的临床就绪度而不牺牲能力。通过将任务与中国临床指南及监管重点对齐,该平台为医院、开发者和政策制定者审核医疗人工智能提供了实用参考。

0
下载
关闭预览

相关内容

预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
R语言机器学习:xgboost的使用及其模型解释
R语言中文社区
11+阅读 · 2019年5月6日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
R语言机器学习:xgboost的使用及其模型解释
R语言中文社区
11+阅读 · 2019年5月6日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员