Single-cell RNA sequencing has transformed our ability to identify diverse cell types and their transcriptomic signatures. However, annotating these signatures-especially those involving poorly characterized genes-remains a major challenge. Traditional methods, such as Gene Set Enrichment Analysis (GSEA), depend on well-curated annotations and often perform poorly in these contexts. Large Language Models (LLMs) offer a promising alternative but struggle to represent complex biological knowledge within structured ontologies. To address this, we present BRAINCELL-AID (BRAINCELL-AID: https://biodataai.uth.edu/BRAINCELL-AID), a novel multi-agent AI system that integrates free-text descriptions with ontology labels to enable more accurate and robust gene set annotation. By incorporating retrieval-augmented generation (RAG), we developed a robust agentic workflow that refines predictions using relevant PubMed literature, reducing hallucinations and enhancing interpretability. Using this workflow, we achieved correct annotations for 77% of mouse gene sets among their top predictions. Applying this approach, we annotated 5,322 brain cell clusters from the comprehensive mouse brain cell atlas generated by the BRAIN Initiative Cell Census Network, enabling novel insights into brain cell function by identifying region-specific gene co-expression patterns and inferring functional roles of gene ensembles. BRAINCELL-AID also identifies Basal Ganglia-related cell types with neurologically meaningful descriptions. Hence, we create a valuable resource to support community-driven cell type annotation.


翻译:单细胞RNA测序技术极大地提升了我们识别多样细胞类型及其转录组特征的能力。然而,对这些特征——尤其是涉及特征不明确基因的特征——进行注释仍然是一个重大挑战。传统方法,如基因集富集分析(GSEA),依赖于精心整理的注释,在这些情境下往往表现不佳。大型语言模型(LLMs)提供了一个有前景的替代方案,但在将复杂的生物学知识表示为结构化本体方面存在困难。为解决这一问题,我们提出了BRAINCELL-AID(BRAINCELL-AID: https://biodataai.uth.edu/BRAINCELL-AID),这是一个新颖的多智能体AI系统,它整合了自由文本描述与本体标签,以实现更准确、更稳健的基因集注释。通过引入检索增强生成(RAG),我们开发了一个稳健的智能体工作流,该工作流利用相关的PubMed文献来优化预测,从而减少幻觉并增强可解释性。使用此工作流,我们在其前几位预测中实现了对77%小鼠基因集的正确注释。应用此方法,我们对来自BRAIN计划细胞普查网络生成的全面小鼠脑细胞图谱中的5,322个脑细胞簇进行了注释,通过识别区域特异性基因共表达模式并推断基因集合的功能角色,从而获得了关于脑细胞功能的新见解。BRAINCELL-AID还识别了与基底神经节相关的细胞类型,并提供了具有神经学意义的描述。因此,我们创建了一个宝贵的资源,以支持社区驱动的细胞类型注释。

0
下载
关闭预览

相关内容

专知会员服务
34+阅读 · 2021年8月16日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员