Clinical coding automation using cloud-based Large Language Models (LLMs) poses privacy risks and latency bottlenecks, rendering them unsuitable for on-premise healthcare deployment. We introduce Hybrid-Code, a hybrid neuro-symbolic multi-agent framework for local clinical coding that ensures production reliability through redundancy and verification. Our system comprises two agents: a Coder that attempts language model-based semantic reasoning using BioMistral-7B but falls back to deterministic keyword matching when model output is unreliable, ensuring pipeline completion; and an Auditor that verifies codes against a 257-code knowledge base and clinical evidence. Evaluating on 1,000 MIMIC-III discharge summaries, we demonstrate no hallucinated codes among accepted outputs within the knowledge base, 24.47% verification rate, and 34.11% coverage (95% CI: 31.2%--37.0%) with 86%+ language model utilization. The Auditor filtered invalid format codes and provided evidence-based quality control (75.53% rejection rate) while ensuring no patient data leaves the hospital firewall. The hybrid architecture -- combining language model semantic understanding (when successful), deterministic fallback (when the model fails), and symbolic verification (always active) -- ensures both reliability and privacy preservation, addressing critical barriers to AI adoption in healthcare. Our key finding is that reliability through redundancy is more valuable than pure model performance in production healthcare systems, where system failures are unacceptable.


翻译:使用基于云端的大型语言模型(LLMs)进行临床编码自动化存在隐私风险和延迟瓶颈,使其不适用于本地医疗部署。我们提出了Hybrid-Code,一种混合神经符号多智能体框架,用于本地临床编码,通过冗余与验证确保生产可靠性。该系统包含两个智能体:编码器(Coder)尝试使用BioMistral-7B进行基于语言模型的语义推理,当模型输出不可靠时则回退至确定性关键词匹配,确保流程完成;审核器(Auditor)则依据包含257个代码的知识库和临床证据对编码进行验证。在1,000份MIMIC-III出院摘要上的评估显示,在知识库范围内接受的输出中未出现幻觉代码,验证率为24.47%,覆盖率为34.11%(95%置信区间:31.2%–37.0%),语言模型使用率超过86%。审核器过滤了无效格式代码,并提供基于证据的质量控制(拒绝率75.53%),同时确保患者数据不离开医院防火墙。该混合架构——结合了语言模型的语义理解(当成功时)、确定性回退(当模型失败时)以及符号验证(始终激活)——确保了可靠性与隐私保护,解决了医疗领域AI应用的关键障碍。我们的核心发现是:在生产医疗系统中,系统故障是不可接受的,因此通过冗余实现的可靠性比纯粹的模型性能更有价值。

0
下载
关闭预览

相关内容

《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
24+阅读 · 2022年9月22日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员