随着表示学习在提供强大的预测和数据洞察方面取得的显著成功,我们见证了表示学习技术在建模、分析和网络学习方面的快速扩展。生物医学网络是相互作用系统的通用描述,从蛋白质相互作用到疾病网络,一直到医疗保健系统和科学知识。

在本综述论文中,我们提出了一项观察,即长期存在的网络生物学和医学原理(在机器学习研究中经常未被提及)可以为表示学习提供概念基础,解释其目前的成功和局限,并为未来的发展提供信息。我们整合了一系列算法方法,其核心是利用拓扑特征将网络嵌入紧凑的向量空间。我们还提供了可能从算法创新中获益最多的生物医学领域的分类。

表示学习技术在识别复杂特征背后的因果变异、解开单细胞行为及其对健康的影响、用安全有效的药物诊断和治疗疾病等方面正变得至关重要。

https://arxiv.org/abs/2104.04883

引言

网络,或称图表,在生物学和医学中非常普遍,从分子相互作用图到一个人疾病之间的依赖关系,一直到包括社会和健康相互作用的人群。根据网络中编码的信息类型,两个实体之间“交互”的含义可能不同。例如,蛋白质-蛋白质相互作用(PPI)网络中的边缘可以表明实验中测量到的物理相互作用,如酵母双杂交筛选和质谱分析(例如,[148,197]);调节网络中的边缘可以指示通过动态单细胞表达测量的基因之间的因果相互作用(例如,[174]);电子健康记录(EHR)网络中的边缘可以表明在医疗本体中发现的层次关系(例如,[182,190])。从分子到医疗保健系统,网络已经成为代表、学习和推理生物医学系统的主要范式。

生物医学网络上表示学习的案例。捕捉生物医学系统中的交互作用会带来令人困惑的复杂程度,只有通过整体和集成系统的观点才能完全理解[17,28,164]。为此,网络生物学和医学在过去二十年中已经确定了一系列管理生物医学网络的组织原则(例如,[16,86,106,262])。这些原则将网络结构与分子表型、生物学作用、疾病和健康联系起来。我们认为,长期存在的原则——虽然在机器学习研究中经常未被提及——提供了概念基础,可以解释表示学习在生物医学网络建模中的成功(和局限性),并为该领域的未来发展提供信息。特别是,当对网络中边缘的解释取决于上下文时,相互作用的实体往往比非相互作用的实体更相似。例如,疾病本体的结构是这样的:通过边缘连接的疾病术语往往比不连接的疾病术语更相似。在PPI网络中,相互作用的蛋白质突变常常导致类似的疾病。相反,与同一疾病有关的蛋白质之间相互作用的倾向增加。在细胞网络中,与特定表型相关的成分往往聚集在同一网络邻居。

表示学习实现网络生物学和医学的关键原理。我们假设表示学习可以实现网络生物学和医学的关键原则。这个假设的一个推论是表示学习可以很好地适用于生物医学网络的分析、学习和推理。表示学习的核心是向量空间嵌入的概念。其思想是学习如何将网络中的节点(或更大的图结构)表示为低维空间中的点,该空间的几何结构经过优化,以反映节点之间的交互结构。表示学习通过指定(深度的、非线性的)转换函数,将节点映射到紧凑的向量空间(称为嵌入)中的点,从而形式化了这一思想。这些函数被优化以嵌入输入图,以便在学习空间中执行代数运算反映图的拓扑结构。节点被映射到嵌入点,这样具有相似网络邻域的节点被紧密地嵌入到嵌入空间中。值得注意的是,嵌入空间对于理解生物医学网络(例如,PPI网络)的意义在于空间中点的邻近性(例如,蛋白质嵌入之间的距离)自然地反映了这些点所代表的实体的相似性(例如,蛋白质表型的相似性),提示嵌入可被认为是网络生物医学关键原理的可微表现。

算法范式(图1)。网络科学和图论技术促进了生物医学的发现,从揭示疾病之间的关系[91,135,159,200]到药物再利用[41,42,96]。进一步的算法创新,如随机游走[40,229,242]、核函数[83]和网络传播[214],也在从网络中捕获结构和邻域信息以生成下游预测的嵌入信息方面发挥了关键作用。特征工程是生物医学网络上机器学习的另一个常用范例,包括但不限于硬编码网络特征(例如,高阶结构、网络主题、度计数和共同邻居统计),并将工程特征向量输入预测模型。这种策略虽然强大,但并不能充分利用网络信息,也不能推广到新的网络类型和数据集[255]。

近年来,图表示学习方法已成为生物医学网络深度学习的主要范式。然而,对图的深度学习具有挑战性,因为图包含复杂的拓扑结构,没有固定的节点排序和参考点,它们由许多不同类型的实体(节点)和各种类型的相互关系(边)组成。传统的深度学习方法无法考虑生物医学网络的本质——多样性的结构特性和丰富的交互作用。这是因为经典的深度模型主要是为固定大小的网格(例如,图像和表格数据集)设计的,或者是为文本和序列优化的。因此,它们在计算机视觉、自然语言处理、语音和机器人技术方面取得了非凡的成就。就像对图像和序列的深度学习彻底改变了图像分析和自然语言处理领域一样,图表示学习也将改变生物学和医学中复杂系统的研究。

我们的重点是表示学习,特别是流形学习[27]、图变压器网络[250]、微分几何深度学习[25]、拓扑数据分析(TDA)[34,224]和图神经网络(GNN)[125]。图2描述了这次评审的结构和组织。我们首先提供流行的图学习范式的技术说明,并描述其在加速生物医学研究的关键影响。在图表示学习的每个当前应用领域(图4),我们展示了图表示学习的潜在方向,可以通过四个独特的前瞻性研究,每个研究至少解决以下图机器学习的关键预测任务之一:节点、边缘、子图和图级预测、连续嵌入和生成。

成为VIP会员查看完整内容
60

相关内容

表示学习是通过利用训练数据来学习得到向量表示,这可以克服人工方法的局限性。 表示学习通常可分为两大类,无监督和有监督表示学习。大多数无监督表示学习方法利用自动编码器(如去噪自动编码器和稀疏自动编码器等)中的隐变量作为表示。 目前出现的变分自动编码器能够更好的容忍噪声和异常值。 然而,推断给定数据的潜在结构几乎是不可能的。 目前有一些近似推断的策略。 此外,一些无监督表示学习方法旨在近似某种特定的相似性度量。提出了一种无监督的相似性保持表示学习框架,该框架使用矩阵分解来保持成对的DTW相似性。 通过学习保持DTW的shaplets,即在转换后的空间中的欧式距离近似原始数据的真实DTW距离。有监督表示学习方法可以利用数据的标签信息,更好地捕获数据的语义结构。 孪生网络和三元组网络是目前两种比较流行的模型,它们的目标是最大化类别之间的距离并最小化了类别内部的距离。
麦克瑞大学最新「深度学习社区检测」综述论文,28页pdf
最新《图机器学习》综述论文,19页pdf
专知会员服务
150+阅读 · 2021年5月5日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
180+阅读 · 2020年9月7日
最新《可解释深度学习XDL》2020研究进展综述大全,54页pdf
图神经网络表达能力的研究综述,41页pdf
专知会员服务
169+阅读 · 2020年3月10日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
【综述】医疗可解释人工智能综述论文
专知
33+阅读 · 2019年7月18日
最全综述 | 医学图像处理
计算机视觉life
57+阅读 · 2019年6月15日
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
医学知识图谱构建技术与研究进展
人工智能学家
17+阅读 · 2017年11月11日
Arxiv
0+阅读 · 2021年6月8日
Arxiv
0+阅读 · 2021年6月7日
GeomCA: Geometric Evaluation of Data Representations
Arxiv
11+阅读 · 2021年5月26日
Visualizing and Measuring the Geometry of BERT
Arxiv
7+阅读 · 2019年10月28日
Arxiv
136+阅读 · 2018年10月8日
VIP会员
相关VIP内容
麦克瑞大学最新「深度学习社区检测」综述论文,28页pdf
最新《图机器学习》综述论文,19页pdf
专知会员服务
150+阅读 · 2021年5月5日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
180+阅读 · 2020年9月7日
最新《可解释深度学习XDL》2020研究进展综述大全,54页pdf
图神经网络表达能力的研究综述,41页pdf
专知会员服务
169+阅读 · 2020年3月10日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
相关资讯
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
【综述】医疗可解释人工智能综述论文
专知
33+阅读 · 2019年7月18日
最全综述 | 医学图像处理
计算机视觉life
57+阅读 · 2019年6月15日
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
医学知识图谱构建技术与研究进展
人工智能学家
17+阅读 · 2017年11月11日
微信扫码咨询专知VIP会员