Corpus distillation for biomedical large language models (LLMs) seeks to address the pressing challenge of insufficient quantity and quality in open-source annotated scientific corpora, which remains a bottleneck for effective LLM training in biomedical research. This paper proposes a knowledge-driven, agentic framework for scientific corpus distillation, tailored explicitly for LLM training in the biomedical domain, addressing the challenge posed by the complex hierarchy of biomedical knowledge. Central to our approach is a collaborative multi-agent architecture, where specialized agents, each guided by the Medical Subject Headings (MeSH) hierarchy, work in concert to autonomously extract, synthesize, and self-evaluate high-quality textual data from vast scientific literature. This agentic framework collectively generates and refines domain-specific question-answer pairs, ensuring comprehensive coverage and consistency with biomedical ontologies while minimizing manual involvement. Extensive experimental results show that language models trained on our multi-agent distilled datasets achieve notable improvements in biomedical question-answering tasks, outperforming both strong life sciences LLM baselines and advanced proprietary models. Notably, our AI-Ready dataset enables Llama3-70B to surpass GPT-4 with MedPrompt and Med-PaLM-2, despite their larger scale. Detailed ablation studies and case analyses further validate the effectiveness and synergy of each agent within the framework, highlighting the potential of multi-agent collaboration in biomedical LLM training.


翻译:生物医学大语言模型(LLMs)的语料精炼旨在解决开源标注科学语料在数量与质量上的不足这一紧迫挑战,该问题仍是生物医学研究中有效训练LLMs的瓶颈。本文提出了一种知识驱动、智能体化的科学语料精炼框架,专门针对生物医学领域的LLM训练而设计,以应对生物医学知识复杂层级结构带来的挑战。我们方法的核心是一个协作式多智能体架构,其中每个专用智能体在医学主题词表(MeSH)层级的指导下协同工作,自主地从海量科学文献中提取、合成并自我评估高质量的文本数据。该智能体框架共同生成并优化领域特定的问答对,确保全面覆盖并与生物医学本体保持一致,同时最大限度地减少人工干预。大量实验结果表明,基于我们多智能体精炼数据集训练的语言模型在生物医学问答任务中取得了显著提升,性能优于强大的生命科学LLM基线模型及先进的专有模型。值得注意的是,我们的AI就绪数据集使Llama3-70B超越了采用MedPrompt和Med-PaLM-2的GPT-4,尽管后者规模更大。详细的消融研究与案例分析进一步验证了框架内各智能体的有效性及协同作用,凸显了多智能体协作在生物医学LLM训练中的潜力。

0
下载
关闭预览

相关内容

具有动能的生命体。
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员