Genomic prediction of drug resistance in Mycobacterium tuberculosis remains challenging due to complex epistatic interactions and highly variable sequencing data quality. We present a novel Interpretable Variant-Aware Multi-Path Network (VAMP-Net) that addresses both challenges through complementary machine learning pathways. Path-1 employs a Set Attention Transformer processing permutation-invariant variant sets to capture epistatic interactions between genomic loci. Path-2 utilizes a 1D Convolutional Neural Network that analyzes Variant Call Format quality metrics to learn adaptive confidence scores. A fusion module combines both pathways for final resistance classification. We conduct comparative evaluations of unmasked versus padding-masked Set Attention Blocks, and demonstrate that our multi-path architecture achieves superior performance over baseline CNN and MLP models, with accuracy exceeding 95% and AUC around 97% for Rifampicin (RIF) and Rifabutin (RFB) resistance prediction. The framework provides dual-layer interpretability: Attention Weight Analysis reveals Epistatic networks, and Integrated Gradients (IG) was applied for critical resistance loci (notably rpoB), while gradient-based feature importance from the CNN pathway uncovers drug-specific dependencies on data quality metrics. This architecture advances clinical genomics by delivering state-of-the-art predictive performance alongside auditable interpretability at two distinct levels, genetic causality of mutation sets and technical confidence of sequencing evidence, establishing a new paradigm for robust, clinically-actionable resistance prediction.


翻译:结核分枝杆菌的药物耐药性基因组预测仍然面临挑战,这源于复杂的上位性相互作用和高度可变的测序数据质量。我们提出了一种新颖的可解释变异感知多路径网络(VAMP-Net),它通过互补的机器学习路径同时应对这两项挑战。路径一采用处理置换不变变异集合的集合注意力Transformer,以捕获基因组位点间的上位性相互作用。路径二利用一维卷积神经网络分析变异调用格式质量指标,以学习自适应置信度分数。一个融合模块将两条路径的输出结合,进行最终的耐药性分类。我们对未掩码与填充掩码的集合注意力块进行了比较评估,并证明我们的多路径架构在利福平(RIF)和利福布汀(RFB)耐药性预测上,其性能优于基线CNN和MLP模型,准确率超过95%,AUC约达97%。该框架提供双层可解释性:注意力权重分析揭示了上位性网络,并对关键耐药位点(尤其是rpoB)应用了积分梯度法;同时,来自CNN路径的基于梯度的特征重要性揭示了药物对数据质量指标的特异性依赖。该架构通过提供最先进的预测性能,以及在两个不同层面(突变集合的遗传因果性和测序证据的技术置信度)可审计的可解释性,推进了临床基因组学的发展,为稳健、可临床操作的耐药性预测建立了新范式。

0
下载
关闭预览

相关内容

【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员