网络生物学是一门位于计算科学与生物科学交叉点的跨学科领域,对于深化我们对细胞功能和疾病的理解至关重要。虽然该领域已经存在了大约二十年,但仍然相对年轻。它经历了快速的变化,并出现了新的计算挑战。这是由许多因素引起的,包括数据复杂性的增加,例如多种类型的数据在生物组织的不同层面上变得可用,以及数据量的增长。这意味着该领域的研究方向也需要演变。因此,在2022年,一场关于网络生物学未来方向的研讨会在圣母大学举办,该研讨会汇集了网络生物学中各种计算和特定算法方面的活跃研究者,以确定该领域的紧迫挑战。研讨会期间讨论的主题包括:生物网络的推断与比较、多模态数据集成与异构网络、高阶网络分析、网络上的机器学习以及基于网络的个性化医学。研讨会的演讲视频已在YouTube上公开提供。为了更广泛地影响研讨会,这篇主要由研讨会参与者共同撰写的论文总结了研讨会的讨论。因此,它预计将有助于塑造网络生物学未来计算和算法研究的短期和长期愿景。 网络(或图)由一组节点(或顶点)组成,这些节点通过一组边(或链接)相连;请参见信息框1。网络使我们能够研究复杂系统的属性,这些属性源自其个体组件之间的相互作用。网络已经成为一种强大的方式,用于表示各种真实世界的现象,包括技术、信息、交通、社会、金融、软件、生态、化学和生物系统[19,299]。我们的关注焦点是生物网络,通过将给定的生物系统表示为相互连接的实体而不是个体组件的集合,它提供了对基因、蛋白质、细胞、组织、器官等各个层面的复杂功能的理解。节点代表生物分子(例如,蛋白质内的氨基酸残基,细胞内的蛋白质,或组织内的细胞),边表示生物分子之间的相互作用(例如,物理、功能性或化学)。网络生物学(图1)是一门跨足计算(例如,算法、图论、网络科学、数据挖掘和机器学习)和生物科学的学科。虽然这个领域已经存在了近二十年,但它经历了快速的变化,并且出现了新的算法挑战。这是由多种因素引起的,包括数据复杂性的增加,例如,不同层面(或规模)的生物组织中可用的多种类型的数据,以及数据大小的增长。讽刺的是,尽管可用数据的数量大大增加,数据仍然是不完整和嘈杂的。这意味着该领域的研究方向也需要演变。
为了促进对该领域未来的讨论,我们在2022年于圣母大学组织了一场关于网络生物学未来方向的研讨会。这次有针对性的会议汇集了39位活跃在网络生物学各个方面的研究者,以提出和讨论该领域计算研究的短期和长期愿景。其中31位参与者亲自参加了研讨会。由于与COVID-19大流行相关的国际旅行困难,所有亲自参加的参与者都来自美国的机构。为了汲取不同的思想和经验的组合,我们尽一切可能在与会者之间保持多样性的平衡。具体来说,亲自出席的参与者中,42%是女性。学术参与者中有健康的职级混合(例如,全职、副职或助理教授,博士后和博士生),并且有来自工业和政府的代表。
参与者展示了他们对将推动网络生物学中计算和特别是算法进展的重要研究方向、未解决的问题和挑战的看法。演示的视频记录在YouTube1上公开提供,工作坊网站2上还提供了额外的信息。工作坊的一个目标是理解算法领域如何使网络生物学受益,反之亦然。此外,工作坊旨在确定网络生物学中具有挑战性的既定和新兴的以算法为重的主题,这些在图1中有所展示:生物网络的推断和比较(第2节)、多模态数据集成和异构网络(第3节)、高阶网络分析(第4节)、网络上的机器学习(第5节)和基于网络的个性化医学(第6节)。我们评论了为什么这些主题被战略性地选择在工作坊上讨论。 某些类型的-组学数据被明确地作为网络捕获。即,生物分子之间的相互作用作为数据收集的生物技术的结果被明确提供。一个突出的例子是蛋白质-蛋白质相互作用(PPI)网络。在这些网络中,节点是蛋白质,边对应于蛋白质之间的物理结合。在人类和一些模型生物中,大量的高通量酵母杂交和其他实验努力已经导致了大量的“参考”PPIs(例如,人类的HURI),以及大量关于蛋白质结合特异性的知识[245,386]。其他类型的-组学数据不是被明确地作为网络捕获,但生物分子之间的相互作用可以通过计算推断,从而导致例如,关联、相关、调控或知识图(信息框1)。第2节讨论了推断均匀网络的任务的几个方面,包括一个特定条件的网络,通常来自多达几种-组学数据类型/模式,以及差异网络分析的相关主题,这是一种网络比较类型。第3节讨论了推断异构网络的任务,通常来自多种-组学或其他多模态数据类型(信息框1),以及与多-组学数据集成相关的几个其他任务,包括网络对齐,这是另一种网络比较类型。通过均匀网络,我们指的是具有单一节点类型和单一边类型的网络,而通过异构网络,我们指的是任何非均匀网络(即,多个节点类型或多个边类型或两者兼有);详见信息框1和第3节。
假设已有(明确捕获或推断出的)网络数据,下一步是分析数据。尽管第2节和第3节已经从网络比较和几个其他任务的角度讨论了网络分析,但第4节和第5节进一步讨论了与网络分析相关的突出任务。具体来说,第4节讨论了在传统用于两两图中捕获更高阶网络结构的主题,称为图元(子图),这些图捕获节点对之间的相互作用,以及从两两图转移到超图的主题,这些超图能够捕获两个以上节点之间的相互作用(信息框1)。第5节讨论了网络生物学中的机器学习进展,这是一个领域,在过去的十年中已经呈指数增长。讨论的关键主题包括图表示学习、将知识整合到机器学习模型中、生成图模型和迁移学习。第6节通过讨论网络生物学的应用方面来补充其他以计算为中心的部分:基于网络的个性化(或精确)医学。精确医学旨在为个体提供量身定制的治疗策略[13,192]。这种个性化的特征可能包括分子、环境、生活方式和其他因素。通过网络方法整合这些不同的数据类型可以扩大精确治疗的潜力,同时对各种类型的数据噪声提供稳健性[425]。
五个工作坊主题并非相互排斥。例如,多模态(包括多-组学)数据集成是一个与第2-6节几乎所有相关的主题。在这五个部分中提出当前网络生物学研究的进展之后,第7节讨论了该领域的未来研究方向,第8节对科学社区、教育/培训和计算(包括网络)生物学中的多样性提供了额外的讨论。