Large language models (LLMs) are increasingly evaluated in clinical settings using multi-dimensional rubrics which quantify reasoning quality, safety, and patient-centeredness. Yet, replicating specific mistakes in other LLM models is not straightforward and often requires manual effort. We introduce MedMistake, an automatic pipeline that extracts mistakes LLMs make in patient-doctor conversations and converts them into a benchmark of single-shot QA pairs. Our pipeline (1) creates complex, conversational data between an LLM patient and LLM doctor, (2) runs an evaluation with a committee of 2 LLM judges across a variety of dimensions and (3) creates simplified single-shot QA scenarios from those mistakes. We release MedMistake-All, a dataset of 3,390 single-shot QA pairs where GPT-5 and Gemini 2.5 Pro are currently failing to answer correctly, as judged by two LLM judges. We used medical experts to validate a subset of 211/3390 questions (MedMistake-Bench), which we used to run a final evaluation of 12 frontier LLMs: Claude Opus 4.5, Claude Sonnet 4.5, DeepSeek-Chat, Gemini 2.5 Pro, Gemini 3 Pro, GPT-4o, GPT-5, GPT-5.1, GPT-5.2, Grok 4, Grok 4.1, Mistral Large. We found that GPT models, Claude and Grok obtained the best performance on MedMistake-Bench. We release both the doctor-validated benchmark (MedMistake-Bench), as well as the full dataset (MedMistake-All) at https://huggingface.co/datasets/TheLumos/MedicalMistakeBenchmark.


翻译:大型语言模型(LLMs)在临床环境中越来越多地通过多维评估标准进行评估,这些标准量化了推理质量、安全性和以患者为中心的程度。然而,在其他LLM模型中复现特定错误并不直接,通常需要人工努力。我们提出了MedMistake,一个自动化的流程,用于提取LLMs在医患对话中犯下的错误,并将其转化为单次问答对的基准测试集。我们的流程(1)创建LLM患者与LLM医生之间的复杂对话数据,(2)通过一个由2个LLM评判员组成的委员会在多个维度上进行评估,以及(3)从这些错误中创建简化的单次问答场景。我们发布了MedMistake-All,这是一个包含3,390个单次问答对的数据集,其中GPT-5和Gemini 2.5 Pro目前未能正确回答,这是由两个LLM评判员判断的。我们使用医学专家验证了其中211/3390个问题的子集(MedMistake-Bench),并以此对12个前沿LLM进行了最终评估:Claude Opus 4.5、Claude Sonnet 4.5、DeepSeek-Chat、Gemini 2.5 Pro、Gemini 3 Pro、GPT-4o、GPT-5、GPT-5.1、GPT-5.2、Grok 4、Grok 4.1、Mistral Large。我们发现,GPT模型、Claude和Grok在MedMistake-Bench上获得了最佳性能。我们同时发布了经过医生验证的基准测试集(MedMistake-Bench)以及完整数据集(MedMistake-All),地址为:https://huggingface.co/datasets/TheLumos/MedicalMistakeBenchmark。

0
下载
关闭预览

相关内容

【ICML2024】上下文感知标记化的高效世界模型
专知会员服务
29+阅读 · 2024年7月2日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月19日
VIP会员
相关VIP内容
【ICML2024】上下文感知标记化的高效世界模型
专知会员服务
29+阅读 · 2024年7月2日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员