The rising prevalence of eye diseases poses a growing public health burden. Large language models (LLMs) offer a promising path to reduce documentation workload and support clinical decision-making. However, few have been tailored for ophthalmology, and most evaluations focus mainly on knowledge-based QA without clinically relevant benchmarks or real-world validation. Here, we present LEME, a suite of open-weight LLMs developed through a two-stage process: (1) instruction tuning on 200,000 samples from clinical guidelines, textbooks, and case reports to enhance reasoning and task-following, and (2) reinforcement learning with ~30,000 preference labels to enhance accuracy and informativeness. LEME was evaluated on five curated zero-shot benchmarks spanning tasks such as patient QA, consultation, and treatment planning. It outperformed all seven baselines (all p < 0.004), exceeding GPT-4o by 3.32% (absolute ROUGE-L gain). It was further evaluated on three downstream tasks using deidentified patient data, reviewed by clinicians. In patient QA, LEME received the highest ratings from attending clinicians in 3 out of 4 criteria, with scores of 4.67 for factuality, 4.77 for specificity, 4.79 for completeness, and 4.88 for safety (1-5 scale). Its completeness score surpassed that of expert-written answers (4.79 vs. 4.56; p = 0.015). In visual acuity extraction, LEME achieved the highest F1, outperforming LLaMA-3 by 14.1% and Eye-LLaMA by 59.0%. In a pilot evaluation on assessment and treatment planning for diabetic retinopathy, AMD, and glaucoma, LEME received scores of 4.36 for factuality, 4.55 for specificity, 4.42 for completeness, and 4.36 for safety, approaching attending-level performance. All models, data, and code will be released to support further development and clinical translation, laying the groundwork for improved efficiency and patient care


翻译:眼病患病率的上升带来了日益增长的公共卫生负担。大语言模型(LLMs)为减轻文书工作负荷和辅助临床决策提供了有前景的路径。然而,鲜有模型专门针对眼科学进行定制,且大多数评估主要集中于基于知识的问答,缺乏临床相关基准或真实世界验证。本文提出LEME,一套通过两阶段过程开发的开放权重大语言模型:(1)基于来自临床指南、教科书和病例报告的200,000个样本进行指令微调,以增强推理和任务执行能力;(2)利用约30,000个偏好标签进行强化学习,以提高准确性和信息量。LEME在五个精心设计的零样本基准上进行了评估,涵盖患者问答、咨询和治疗计划等任务。其表现优于所有七个基线模型(所有p < 0.004),绝对ROUGE-L增益超过GPT-4o达3.32%。进一步使用去标识化患者数据在三个下游任务上进行了评估,并由临床医生审核。在患者问答任务中,LEME在4项标准中的3项获得了主治医生的最高评分,事实性得分为4.67,特异性为4.77,完整性为4.79,安全性为4.88(1-5分制)。其完整性得分超过了专家撰写的答案(4.79 vs. 4.56;p = 0.015)。在视力提取任务中,LEME取得了最高的F1分数,分别超过LLaMA-3 14.1%和Eye-LLaMA 59.0%。在针对糖尿病视网膜病变、年龄相关性黄斑变性和青光眼的评估与治疗计划的初步评估中,LEME的事实性得分为4.36,特异性为4.55,完整性为4.42,安全性为4.36,接近主治医生水平。所有模型、数据和代码将公开发布,以支持进一步开发和临床转化,为提高效率和改善患者护理奠定基础。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员