图谱实战 | 华农夏静波：深层语义知识图谱在药物重定位中的应用

会员服务 ·

图谱实战 | 华农夏静波：深层语义知识图谱在药物重定位中的应用

2022 年 6 月 14 日 开放知识图谱

转载公众号 | DataFunSummit

分享嘉宾：夏静波华中农业大学副教授

编辑整理：王金华电科32所

出品平台：DataFunTalk

导读： 自新冠病毒肺炎疫情发生以来，由于传统药物研发周期长，药物重定位（老药新用）成为新冠肺炎药物研发的主要策略。药物重定位是对已经上市或上市失败的药物重新确定治疗适应症。从研发路线上分，药物重定位有对常见药物的新作用进行系统性筛选，也有通过收集一线临床医生的临床经验为线索，更有对过去失败的药物分子进行重新定位研发的策略。

在药物重定位的技术路线中，通过对现有医药文献的分析挖掘从而得到可能适应症的线索，成了开展药物重定位研究的一个基础工作。夏静波老师在本报告的分享中，致力于从医药文献中发现药物和疾病之间的潜在影响关系，从而对现有药物给出新适应症的指引和建议。

夏静波老师此次本次分享题目为“Thematic role语义识别和医药知识精细挖掘”。主要内容为：

医药文献中深层语义的挖掘构建
医药文献中深层语义挖掘的研究范式
深层语义知识图谱在药物重定位中的应用
多模态数据融合
展望与进一步的研究

医药文献中深层语义建模

1. 药物重定位领域概述

药物重定位研究领域中，所采取的数据来源，大多数都是基于医院临床、诊疗上的文本和图像的数据，而本报告主要致力于通过医药文献的数据源来获取一些新的线索。当然，本研究工作的服务对象，也是从试验、医院，到消费者的场景。

本报告聚焦在药物重定位知识图谱的构建，该图谱是生物医药中一个细分领域的知识图谱。首先强调一下生物医药文本挖掘与一般行业知识图谱的区别，生物医药文本挖掘对知识的要求，是更加细粒度的、更加深层的语义，而一般行业知识图谱对知识的要求可能是粗粒度的、浅层的语义。

为什么要重定位？因为新药的研发速度非常慢，一般一个新药的成功研发到上市需要 10 到 15 年；然后是单药物的开发成本非常高，一般是 5 到 9 亿美元；再是审批通过的概率很低，在5000 个申报的测试化合物中仅有 1 个被 FDA 批准开展后续工作，而 100 个申报药物中仅有一个可能被批准上市。

2. 药物重定位典型的例子

以多巴胺为例，它本来只是用于治疗心血管和肾脏疾病，而近年发现可用于治疗多个癌症，它有一个泛癌的治疗效应，其中多巴胺受体家族包含 5 个在信号传导和配体亲和力方面存在差异的标志物蛋白，其异常表达与这些癌症的临床结果相关。

雷帕霉素原用于免疫系统疾病，近年发现其针对胰腺癌能发挥疗效，其中，该药物的靶标蛋白mTOR 是关键标志物。

因此，我们得到启发，是不是能从医药文献中，找到一些能启发药物新用途、新功能的知识？这个知识，可能是深层次的知识，一般很难从药理学、成药学找到背景。

药物重定位的一个典型过程：在很多文章里，都会出现药物、靶向基因，那么，我们可以判别药物的行为，一个基因突变后，蛋白的功能会发生变化；然后药物还可能抑制基因来发生这种变化，如果发现了，是相互抑制的关系，那么，就发现了这个药物的新用处。

因此，为了发现这么一个场景的语义，最重要的工作就是从医药文献中发现生物医药事件。比如，这一个文献：

如果人工来阅读，可以发现一些线索，如标红这些部分：

标红的部分，描述了突变事实、分子的机理、细胞的机理，人类专家可以直接阅读获知，那么机器如何来识别这些线索呢？需要NLP方法来挖掘，这是一个相对比较长线的学习任务。

3. 药物重定位语料的构建

我们课题组开发了一个数据集，从2017年到2019年的数据集的版本，我们的语料库名字为“Active Gene Annotation Corpus (AGAC, V1.0)”。

我们在数据集中，定义了这些实体类型：基因突变、分子活性、细胞活性，分子之间的通路。

我们研究的最终目标——也就是我们所揭示的深层语义，是“在某种外界条件影响下, 基因XXX发生了某种突变, 导致失去或者获得功能, 这与某种疾病的发病原理有关。”

在收集医药文献原始数据后，语料库构建中最核心的工作，就是语料语义角色标注，语义角色标注也叫做语义分析，是用来识别句子中谓语的结构，比如“who did what to whom, where and when”，在给定谓语的情况下标记语义角色。也就是，希望说明“谁、对什么做了什么事情，产生了什么影响。”

在生物医药领域同行，都更加关注两类实体：

致事（Cause）：动作发生的客观原因。
主事（Theme）：性质、状态或变化性事件的主体。

下图，是我们在做语义角色标注过程中具体的一个例子：

在该图中，标注了突变、基因、规则、分子、蛋白质等实体类型，同时在这些实体类型之间构建了导致、类型等关系类型。

医药文献中深层语义挖掘的研究范式

1. 研究范式概述

在生物医药领域的文本分析研究中，主要有如下研究范式：

语言学来搭建 AGAC 语料库用以刻画 LOF/GOF 的语义；
基于文本挖掘来做 NLP 手段用以大规模的语义预测；
基于生物医药背景来做多来源数据的知识关联；
数学模型来做多来源数据下的数据推理和融合。

2. 医药文献中深层语义的挖掘与构建

下图是我们基于上述概念类型所标注的生物医药领域的文本语料。

下图是我们基于语义角色标注构建的知识图谱，我们这里的知识图谱已经是高度结构化、凝练的小规模图谱。

如上面已构建的图谱所示，一个经过标准化后的实体——RS10719突变，能抑制miR-27b小RNA的生物事件，能够促进Luciferase酶的表达，而且它能促进DROSHA基因的表达，从而能促进膀胱癌的发生。这种都是短线条的关系，如果把所有维度的事件、实体、关系都挖掘出来了，那么，我们就能更加容易地还原事件的真相。

回到我们的场景——药物重定位。对于药物功能的发现，对于这么一个小规模、知识逻辑很清晰的图谱，从这里寻找一些重要的基因、RNA的标志物，再去寻找相关药物为靶向的标志物，再把药物引到该通路里来，观察治疗效果，这是很有启发的。

这是我们构建图谱的一个可视化展现：

我们构建图谱的特征是数据量不大，但是来自大量的文献，文献里都隐藏着证据、知识，其可信度很高，每一个知识点都有证据支撑。

深层语义知识图谱在药物重定位中的应用

基于标注构建的知识图谱，怎么应用到药物重定位中？得到该深层语义的图谱后，可以做分析、关联、演算。

1. 如何寻找药物和基因之间的关联？

我们能把医药数据库的文献条目，放到一个二维矩阵里去（下图上半部分）。一般情况下，在这里，基因和疾病之间只有一种关系。

同时，通过上述构建的深层次图谱，我们能从文本里，能发现疾病的多维、深层关系，在这里，基因和疾病有多种关系。这里可以把这些数据放到多维矩阵中，这就是Tensor（张量）。

然后，就是利用模型，进行矩阵和张量的联合分解，包含A矩阵、V矩阵，这里A矩阵既能从医药数据库的文献条目获得，也能从构建的深层次图谱获得，通过融合计算，得到最终嵌入的A矩阵。最终，通过嵌入计算得到了基因和疾病之间的关联关系。

2. 质量评价

我们把我们工作跟同行也做了一个比较，比较下来，我们的工作还是有成效的。

多模态数据融合

1. 多模态数据融合的意义

前面通过文本挖掘所获得的精细化语义，描述的是基因上发生的突变，非常具体的突变类型，现在简称它们为“类型突变”。

但生物领域里研究更多的，数据量也更为庞大的，是关联突变。它并非描述谁在影响谁的因果，而是两者之间是否具有关联性。下图右侧是一个曼哈顿图，纵坐标是P1值的负log，横坐标是基于染色体排序得到的卷积，这是生命主角数据的研究做法，它主要发现哪些突变和基因有什么关系。

而下图的左侧，是我们从文本里挖掘出来的深层次的、有知识佐证的关联语义知识，也就是类型突变知识。这与右下图用曼哈顿图描述的关联突变在模态上，是完全不一样的。

如果能从两边数据中找到恰当的数据融合的落脚点，那么我们就可能得到更多疾病与疾病、疾病与药物之间的关系。有了这个知识的融合工作，对药物重定位的启发，就更加有效。

这两类知识如何做统一融合？

2. 突变数据协同的图模型和变分推断求解

正如前面所述，我们这里有两套数据，一套是传统生命科学领域的关联数据P，它是0-1之间的数值，描述疾病和基因之间的关联关系度的值。另一套是生成语义关系的编码，描述基因和疾病之间的知识。

同时，我们设计了一个图模型，从生成关系的角度，寻找 γ 和 f 有什么关系，γ 和 p 有什么关系，这两个关系在这里就是一个开关，如果打开了 γ 是在 f 中获得更好的支持，如果 γ 和 p 打开了，说明 γ 在p中获得更好的支持。如果两个都关闭了，那么，说明 γ 在 p、f 获得的支持都不充分。

他们之间是有很好的互补性，左边的f有很好的权威性、正确性，但覆盖度不够；右边的p有很好的广泛性，但他们之间的关联度不够。

所以通过LDA，贝叶斯网络，一点点推导出更大的图，这就完成了知识图谱数据融合的过程，如下图：

3. 融合多模态数的应用

通过上述融合，我们得到了如下的融合知识图谱：

这个融合的知识图谱在发现老年痴呆推测中，获得了很好的效果，大多数结果都得到知识库的佐证。

展望与进一步的研究

下图是我们设想的一个理想的研究远景：这里说明了什么样的知识图谱对药物重定位研究是有用的。

我们认为，这里的图谱的特征是：

关系链条不一定很长，基因和药物之间的影响关系要很明确，如谁抑制谁、谁激活谁。
每一条证据最好是可以循证、溯源的。

参考资料：

◆ Kaiyin Zhou, Sheng Zhang, Yuxing Wang, Kevin Bretonnel Cohen, Jin-Dong Kim, Qi Luo, Xinzhi Yao, Xingyu Zhou, Jingbo Xia*. High-quality Gene/Disease Embedding in A Multi-relational Heterogeneous Graph After A Joint Matrix/tensor Decomposition. Journal of Biomedical Informatics. 2022, 126:103973.

◆Sizhuo Ouyang, Yuxing Wang, Kaiyin Zhou, Jingbo Xia*. LitCovid-AGAC: Cellular and Molecular Level Annotation Data Set Based on Covid-19. Genomics and Informatics, 2021; 19(3): e23.

◆ Kaiyin Zhou#, Yuxing Wang#, Kevin Bretonnel Cohen, Jin-Dong Kim, Xiaohang Ma, Zhixue Shen, Xiangyu Meng, Jingbo Xia*. Bridging Heterogeneous Mutation Data to Enhance Disease-Gene Discovery. Briefing in Bioinformatics, 2021, bbab079.

今天的分享就到这里，谢谢大家。

分享嘉宾：