本论文以综述部分开始,描述了所提交工作更广泛的背景。接下来的两部分说明了在生物医学发现信息学方面的研究从基于文本和本体的解决方案到基于关系机器学习的预测模型的演变。后面这些部分是以前发表的作品的集合。
发现信息学(Discovery informatics)是计算机科学中一个定义宽松的领域,主要目的是为信息过载问题提供解决方案。更具体地说,发现信息学研究试图提出新的、更有效的方法来获取、整合、组织、增加和利用来自数据集的信息和知识,这些数据集通常是大的、异质的、结构差的、快速发展的、不可靠的,或者换句话说,是真实的。这些特点可以说与当今人类活动的几乎任何领域有关。然而,它们与生命科学特别相关。
所介绍的工作主要是由以下生命科学中信息过载问题的实例所激发的。1. 已发表文章的广度和深度不断增加,很难以一种集中和详尽的方式加以利用。2. 网络生物医学资源的潜力尚未得到开发,无法进行发现。
本文对第一个具体挑战的解决方案是基于本体学习、人口和整合方面的进展。在第二个挑战的激励下,最近的研究是通过应用关系机器学习在网络生物医学数据集中进行链接预测来实现新的发现。
所提交的作品得到了国际认可,在Web of Science数据库中获得了超过70次的引用(在Google Scholar中大约是三倍)。此外,其中一份出版物中报告的研究获得了爱思唯尔生命科学知识提升大挑战的二等奖,在来自斯坦福大学或卡耐基梅隆大学等世界知名机构的70多个团队的激烈竞争中,我们赢得了15000美元的奖金。另一份出版物报告了对癌症途径中以前未知的蛋白质相互作用的预测,然后在活的人类细胞中观察到了这些相互作用--这是对我的工作在现实世界的有力验证。最后但并非最不重要的是,论文最后一部分所报告的研究已被富士通实验室有限公司用于商业开发,并获得了五项专利(两项正在申请中,三项已在美国专利商标局、欧洲专利局和/或日本管辖范围内授予)。这清楚地表明了我的工作在工业上的相关性。
论文的核心是以前发表的9篇作品(7篇高影响力的期刊文章,2篇A级会议论文)。我是其中4篇的第一作者,其余为高级作者。我构思和协调了导致所有出版物的研究,并对每项研究做出了实质性的贡献(无论是在实施相应的原型,设计验证方法和试点,撰写和/或编辑手稿,获得资金和整体协调,或两者的结合)。
自动发现最近被吹捧为计算机科学即将面临的最重要的挑战之一[10]。然而,这个挑战远不是新的。早在几十年前,一些研究团体就在努力想出一些计算方法,以协助人们将数据转化为信息和知识的过程[3]。
根据后来的工作,如[5]或[8],这些努力可以被方便地归入一个共同的标签--发现信息学。在[8]中,这一领域被简明地定义为应用计算机科学的一门学科,其目的是:i)对整个科学过程进行形式化描述,使之能够被机器理解和处理;ii)设计、开发和评估基于这种形式化的计算工具;iii)以完全自动化或机器辅助的方式应用所产生的工具来推动科学。
这篇论文追踪了我在过去13年里发现信息学研究愿景的演变,可以归类为以前发表的作品的一个连贯的集合,这些作品探索了各种应用人工智能的方法来解决具体问题。然而,所有这些问题都是由生命科学中两个高层次的信息过载挑战之一所激发的。
1.已发表文章的广度和深度不断增加,很难以一种集中和详尽的方式加以利用。
2.网络化生物医学资源的潜力尚未得到开发,无法进行发现。
我对第一个具体挑战的解决方案是基于本体学习、人口和整合方面的进展[26]。在第二个挑战的激励下,我最近的研究是关于通过应用知识图谱嵌入[25]来实现网络生物医学数据集的链接预测的新发现。
论文的其余部分组织如下。
在本评论的其余部分,我首先介绍了所提出的研究的整体概念,并讨论了最基本的相关方法(第2节)。然后,我描述了我的具体贡献(第3节),并回顾了论文中包括的作品的影响(第4节)。
第二部分介绍了我已发表的三个作品,这些作品旨在通过文本挖掘和本体学习,使生命科学文献搜索更加有效,并真正以知识为基础。
第三部分介绍了我发表的六项作品,这些作品为使用知识图谱嵌入来发现药物、蛋白质和其他有实际意义的生物医学实体铺平了道路。