生物医学数据正变得越来越多,从而捕捉生物过程之间的潜在复杂关系。基于深度学习(DL)的数据融合策略是建模这些非线性关系的一种流行方法。因此,我们回顾了目前这种方法的最新进展,并提出了一个详细的分类,以促进更明智的选择融合策略的生物医学应用,以及新方法的研究。通过这样做,我们发现深度融合策略往往优于单模态和浅层方法。此外,提出的融合策略子类显示出不同的优点和缺点。对现有方法的回顾表明,联合表示学习是首选的方法,特别是对于中间融合策略,因为它可以有效地模拟不同层次生物组织的复杂相互作用。最后,我们注意到,逐步融合,基于先前的生物知识或搜索策略,是一个有前途的未来研究路径。同样,利用迁移学习可以克服多模态数据集的样本大小限制。随着这些数据集变得越来越容易获得,多模态DL方法提供了训练整体模型的机会,这些模型可以学习健康和疾病背后复杂的监管动态。
https://pubmed.ncbi.nlm.nih.gov/35089332/
单个细胞和完整的有机体是典型的复杂系统,因为它们由许多不同的部分组成,相互作用,并产生紧急行为[1]。当试图对复杂疾病进行预测时,了解这些相互作用尤为重要。数据模态是用一个特定的传感器[2]测量这种现象的结果,因此它本身提供的信息有限。有了多模态数据,就有可能获得关于单个部件及其应急行为的信息。由于高通量技术的快速发展,我们现在可以前所未有地获得大规模多模态生物医学数据,提供了利用这些更丰富信息的机会。
数据融合是将来自不同模态的数据结合起来,对一个共同现象提供不同的观点,以解决一个推理问题。这有希望解决这样的问题,比单模态方法的错误少[3]。更具体地说,数据融合的优势可以分为互补特征、冗余特征和协作特征[4,5],尽管这些特征并不相互排斥。
数据融合在生物医学领域的优势可以用一个癌症患者的多模态研究来说明。来自肿瘤的基因组数据能够识别癌症驱动基因,而来自活检的全切片图像(WSI)提供了关于肿瘤形态和微环境的视图。这些模态是“互补的”,因为它们提供了关于现象的不同部分的信息,否则就无法观察到。转录组和蛋白质组数据的融合是互补的,因为所有的mRNA都不翻译成蛋白质,而“冗余的”是因为蛋白质的丰度确定了特定的mRNA翻译成蛋白质。当数据有噪声或有许多缺失值时,这种冗余尤为重要。来自同一肿瘤的miRNA和mRNA测序数据可以被认为是“合作的”,因为合并的信息增加了复杂性。两种模态的融合提供了一种可能的解释差异丰富的蛋白质,例如,一个致癌基因。这可能在预测病人对某种治疗的反应方面起着至关重要的作用。
融合策略的目的是有效地利用不同模态的互补、冗余和合作特征。为了充分利用这些对感兴趣的现象的观点,机器学习(ML)方法必须部署,能够融合具有不同统计特性的结构化和非结构化数据、非生物变异来源、高维[6]和不同模态的缺失值[2]。
近年来,多模态ML方法在各个领域得到了越来越多的研究和应用[6,11]。图1说明了生物医学领域的这一趋势。在数据融合方面,多模态深度学习(DL)比浅层方法更有优势。全连接神经网络(FCNNs)是深度神经网络(DNNs)的传统形式,可以看作是一个有向非周期图,它通过几个隐藏层的非线性计算操作[12]将输入x映射到标签y。表1总结了常见的DL架构。这种算法的目标是学习输入数据的高级表示,通过找到底层解缠因素之间的简单依赖关系,从而改进最终分类器的预测。较早的层学习数据的简单抽象,而较深的层将它们组合成更抽象的表示,为学习任务[13]提供信息。重要的是,多模态DL能够建模非线性内模态和跨模态关系。这导致了它在各种领域[2]的应用。然而,生物医学应用面临着多模态融合的特殊挑战,如与组合维度相比样本量较小、缺失整个模态以及模态之间的维数失衡。
尽管生物医学应用的DL架构已经被综述过,但针对异构数据的不同的基于DL的融合策略还没有。这是在目前的综述,其中我们描述了最先进的基于dl的融合战略在生物医学领域。此外,我们提出了一种分类法,不仅概述了早期、中期和晚期融合的标准分类,而且还描述了对希望应用或增强当前方法的研究人员和从业者有用的子类别。此外,本综述的目的是提供指导,在哪些条件下,不同的融合策略最有可能执行良好。为此,首先概述了主要的融合策略,并提出了较为详细的分类方法。接下来,对早期、中期和晚期融合类别及其子类别进行了详细描述,并广泛地举例说明了在生物医学问题上的应用。最后,我们讨论了所描述的策略在生物医学领域的挑战和机遇,并对未来的研究提出了建议。