首发于DrugAI
Nature Protocols | 基于机器学习和并行计算的代谢组学数据处理新方法

Nature Protocols | 基于机器学习和并行计算的代谢组学数据处理新方法

代谢组学是对某一生物或细胞在一特定生理时期内所有代谢产物同时进行定性定量分析的学科,被广泛用于揭示小分子与生理病理效应间的关系。目前,代谢组学已经被应用于药物开发的各个阶段(如药物靶标识别、先导化合物发现、药物代谢分析、药物响应和耐药研究等)。基于代谢组学的高性价比特性,它被药学领域的研究者给予了厚望,有望加速新药开发的进程。然而,代谢组领域还面临着严重的信号处理与数据分析问题,对其在新药研发中的应用构成了巨大挑战。为了有效消除由环境、仪器和生物因素所引入的不良信号波动,就需要开发针对代谢组信号系统优化的新方法,为不同组学研究量身定制最优的数据分析策略。


针对上述问题,浙江大学药学院和智能创新药物研究院朱峰教授团队与阿里巴巴-浙江大学未来数字医疗联合研究中心于近期合作在《Nature Protocols》发表了题为“Optimization of metabolomic data processing using NOREVA”的研究工作。该工作报道了一套基于机器学习和并行计算的优化组学信号处理策略的新方法。该方法通过大规模扫描现有的海量信号处理流程,针对用户给定的代谢组学原始数据,可以快速地优化出性能最佳的组学数据处理流程。这一方法实现了对药学领域常见的“时间序列”和“多分类”代谢组学问题的数据处理,对药物靶标发现、药物代谢、药物响应与疾病发生发展的病理学机制研究都具有重要的价值。


1.基于机器学习,开展代谢组数据处理流程的多角度评估

传统的代谢组学数据处理方法往往只关注对组内样本差异的弥合。然而,在真实世界的药学研究中(如候选靶标的发现、药物敏感性研究等),还需要考虑对数据扰动的稳定性、样本量大小的敏感性等。因而,此项研究在传统单一评估的基础上,基于机器学习算法,创新性地开发了一套多角度评估代谢组学数据处理效能的新策略。具体来说,该策略通过评估数据处理方法在减小组内样本差异,差异代谢分析,标志物识别稳定性,分类准确度,生物金标准一致性等五个相对独立方向上的效能,实现了多角度的系统评估。与传统方法的比较显示,那些在传统上被认为最优的数据处理流程往往无法满足此项目多角度评估的要求。



2.针对药学问题,实现时间序列和多分类代谢组数据处理

时间序列和多分类问题是药学研究中的常见问题,因而已经成为当前药物代谢组学研究的前沿热点。有别于传统的二分类研究,时间序列代谢组研究可以动态监测不同的生物过程(如微生物生长、疾病发展、药物代谢与响应等)。同时,多分类代谢组对揭示某些生理过程、疾病转移等潜在机制也至关重要。因而,此项研究全方位优化了适用于时间序列和多分类代谢组学的信号处理流程。在时间序列代谢组学研究中的实际应用显示,此项研究所推荐的数据处理流程(下图排名前五)可以有效的重现犬尿氨酸(kynurenine)在感染疟疾前、诊断疟疾后和抗疟疾治疗后随时间的动态变化。这一结果与排名靠后的流程(下图排名最后的五名)形成了鲜明的对比,证实了此研究开发的新方法在特定药学研究中的有效性。



对多分类问题的进一步研究显示,新方法所推荐的数据处理流程可以同时复现多种加标化合物(catechin, phloridzin, epicatechin, quercetin-3-galactoside, quercetin-3-rhamnoside, quercetin-3-glucoside, quercetin, trans-resveratrol, and cyanidin-3-galactoside)的浓度梯度差异,突破了传统方法在此类问题上的长期技术限制。在多分类组学大数据的基础上,再次验证了新方法在组学数据处理效能评估上的可靠性。

3.基于并行计算,加速对海量信号处理流程的大规模扫描

代谢组学数据处理由多个步骤组成,包括数据过滤、缺失值填充、基于质量控制样本的信号校正、数据转换、归一化等。由于各步骤中可供选择的方法很多,因而产生了丰富多样的信号处理流程。同时,项目研究团队在前期研究中,提出了信号处理的组合策略(Brief Bioinform. 21: 2142-2152, 2020),进一步丰富了信号处理流程的多样性(最终得到超过五千种组合流程)。这些多样流程的存在为科研工作者如何针对不同的数据找到合适的方法带来了巨大困难,因而需要运用此项目所开发的新方法实现对海量信号处理选项的全方位系统扫描和评估。为了解决大规模扫描海量信号处理流程过程中所面临的计算资源瓶颈问题,此项研究首次将并行计算架构引入代谢组学数据处理。测试显示,相比串行运算来说,新方法整合的并行计算仅在个人电脑上就将运行效率提高了10倍以上。



参考资料

J. B. Fu, Y. Zhang, Y. X. Wang, H. N. Zhang, J. Liu, J. Tang, Q. X. Yang, H. C. Sun, W. Q. Qiu, Y. H. Ma, Z. R. Li, M. Y. Zheng, F. Zhu*. Optimization of metabolomic data processing using NOREVA. Nature Protocols. doi: 10.1038/s41596-021-00636-9 (2022)

nature.com/articles/s41

编辑于 2022-01-13 18:25