图谱实战 | 华农夏静波:深层语义知识图谱在药物重定位中的应用

2022 年 6 月 14 日 开放知识图谱

转载公众号 | DataFunSummit



分享嘉宾:夏静波 华中农业大学 副教授


编辑整理:王金华 电科32所
出品平台:DataFunTalk

导读: 自新冠病毒肺炎疫情发生以来,由于传统药物研发周期长,药物重定位(老药新用)成为新冠肺炎药物研发的主要策略。药物重定位是对已经上市或上市失败的药物重新确定治疗适应症。从研发路线上分,药物重定位有对常见药物的新作用进行系统性筛选,也有通过收集一线临床医生的临床经验为线索,更有对过去失败的药物分子进行重新定位研发的策略。

在药物重定位的技术路线中,通过对现有医药文献的分析挖掘从而得到可能适应症的线索,成了开展药物重定位研究的一个基础工作。夏静波老师在本报告的分享中,致力于从医药文献中发现药物和疾病之间的潜在影响关系,从而对现有药物给出新适应症的指引和建议。 

夏静波老师此次本次分享题目为“Thematic role语义识别和医药知识精细挖掘”。主要内容为: 

  • 医药文献中深层语义的挖掘构建 

  • 医药文献中深层语义挖掘的研究范式

  • 深层语义知识图谱在药物重定位中的应用

  • 多模态数据融合

  • 展望与进一步的研究

01
医药文献中深层语义建模

1. 药物重定位领域概述 

药物重定位研究领域中,所采取的数据来源,大多数都是基于医院临床、诊疗上的文本和图像的数据,而本报告主要致力于通过医药文献的数据源来获取一些新的线索。当然,本研究工作的服务对象,也是从试验、医院,到消费者的场景。

本报告聚焦在药物重定位知识图谱的构建,该图谱是生物医药中一个细分领域的知识图谱。首先强调一下生物医药文本挖掘与一般行业知识图谱的区别,生物医药文本挖掘对知识的要求,是更加细粒度的、更加深层的语义,而一般行业知识图谱对知识的要求可能是粗粒度的、浅层的语义。  

为什么要重定位?因为新药的研发速度非常慢,一般一个新药的成功研发到上市需要 10 到 15 年;然后是单药物的开发成本非常高,一般是 5 到 9 亿美元;再是审批通过的概率很低,在5000 个申报的测试化合物中仅有 1 个被 FDA 批准开展后续工作,而 100 个申报药物中仅有一个可能被批准上市。

2. 药物重定位典型的例子

以多巴胺为例,它本来只是用于治疗心血管和肾脏疾病,而近年发现可用于治疗多个癌症,它有一个泛癌的治疗效应,其中多巴胺受体家族包含 5 个在信号传导和配体亲和力方面存在差异的标志物蛋白,其异常表达与这些癌症的临床结果相关。

雷帕霉素原用于免疫系统疾病,近年发现其针对胰腺癌能发挥疗效,其中,该药物的靶标蛋白mTOR 是关键标志物。

因此,我们得到启发,是不是能从医药文献中,找到一些能启发药物新用途、新功能的知识?这个知识,可能是深层次的知识,一般很难从药理学、成药学找到背景。

药物重定位的一个典型过程:在很多文章里,都会出现药物、靶向基因,那么,我们可以判别药物的行为,一个基因突变后,蛋白的功能会发生变化;然后药物还可能抑制基因来发生这种变化,如果发现了,是相互抑制的关系,那么,就发现了这个药物的新用处。

因此,为了发现这么一个场景的语义,最重要的工作就是从医药文献中发现生物医药事件。比如,这一个文献:

如果人工来阅读,可以发现一些线索,如标红这些部分:

标红的部分,描述了突变事实、分子的机理、细胞的机理,人类专家可以直接阅读获知,那么机器如何来识别这些线索呢?需要NLP方法来挖掘,这是一个相对比较长线的学习任务。

3. 药物重定位语料的构建 

我们课题组开发了一个数据集,从2017年到2019年的数据集的版本,我们的语料库名字为“Active Gene Annotation Corpus (AGAC, V1.0)”。

我们在数据集中,定义了这些实体类型:基因突变、分子活性、细胞活性,分子之间的通路。

我们研究的最终目标——也就是我们所揭示的深层语义,是“在某种外界条件影响下, 基因XXX发生了某种突变, 导致失去或者获得功能, 这与某种疾病的发病原理有关。”

在收集医药文献原始数据后,语料库构建中最核心的工作,就是语料语义角色标注,语义角色标注也叫做语义分析,是用来识别句子中谓语的结构,比如“who did what to whom, where and when”,在给定谓语的情况下标记语义角色。也就是,希望说明“谁、对什么做了什么事情,产生了什么影响。”

在生物医药领域同行,都更加关注两类实体:

  • 致事(Cause):动作发生的客观原因。

  • 主事(Theme):性质、状态或变化性事件的主体。

下图,是我们在做语义角色标注过程中具体的一个例子:

在该图中,标注了突变、基因、规则、分子、蛋白质等实体类型,同时在这些实体类型之间构建了导致、类型等关系类型。 

02

医药文献中深层语义挖掘的研究范式 

1. 研究范式概述

在生物医药领域的文本分析研究中,主要有如下研究范式:

  • 语言学来搭建 AGAC 语料库用以刻画 LOF/GOF 的语义;

  • 基于文本挖掘来做 NLP 手段用以大规模的语义预测;

  • 基于生物医药背景来做多来源数据的知识关联;

  • 数学模型来做多来源数据下的数据推理和融合。

2. 医药文献中深层语义的挖掘与构建 

下图是我们基于上述概念类型所标注的生物医药领域的文本语料。

下图是我们基于语义角色标注构建的知识图谱,我们这里的知识图谱已经是高度结构化、凝练的小规模图谱。

如上面已构建的图谱所示,一个经过标准化后的实体——RS10719突变,能抑制miR-27b小RNA的生物事件,能够促进Luciferase酶的表达,而且它能促进DROSHA基因的表达,从而能促进膀胱癌的发生。这种都是短线条的关系,如果把所有维度的事件、实体、关系都挖掘出来了,那么,我们就能更加容易地还原事件的真相。

回到我们的场景——药物重定位。对于药物功能的发现,对于这么一个小规模、知识逻辑很清晰的图谱,从这里寻找一些重要的基因、RNA的标志物,再去寻找相关药物为靶向的标志物,再把药物引到该通路里来,观察治疗效果,这是很有启发的。  

这是我们构建图谱的一个可视化展现:

我们构建图谱的特征是数据量不大,但是来自大量的文献,文献里都隐藏着证据、知识,其可信度很高,每一个知识点都有证据支撑。

03
深层语义知识图谱在药物重定位中的应用 

基于标注构建的知识图谱,怎么应用到药物重定位中?得到该深层语义的图谱后,可以做分析、关联、演算。 

1. 如何寻找药物和基因之间的关联? 

我们能把医药数据库的文献条目,放到一个二维矩阵里去(下图上半部分)。一般情况下,在这里,基因和疾病之间只有一种关系。

同时,通过上述构建的深层次图谱,我们能从文本里,能发现疾病的多维、深层关系,在这里,基因和疾病有多种关系。这里可以把这些数据放到多维矩阵中,这就是Tensor(张量)。

然后,就是利用模型,进行矩阵和张量的联合分解,包含A矩阵、V矩阵,这里A矩阵既能从医药数据库的文献条目获得,也能从构建的深层次图谱获得,通过融合计算,得到最终嵌入的A矩阵。最终,通过嵌入计算得到了基因和疾病之间的关联关系。  

2. 质量评价 

我们把我们工作跟同行也做了一个比较,比较下来,我们的工作还是有成效的。

04
多模态数据融合 

1. 多模态数据融合的意义 

前面通过文本挖掘所获得的精细化语义,描述的是基因上发生的突变,非常具体的突变类型,现在简称它们为“类型突变”。

但生物领域里研究更多的,数据量也更为庞大的,是关联突变。它并非描述谁在影响谁的因果,而是两者之间是否具有关联性。下图右侧是一个曼哈顿图,纵坐标是P1值的负log,横坐标是基于染色体排序得到的卷积,这是生命主角数据的研究做法,它主要发现哪些突变和基因有什么关系。

而下图的左侧,是我们从文本里挖掘出来的深层次的、有知识佐证的关联语义知识,也就是类型突变知识。这与右下图用曼哈顿图描述的关联突变在模态上,是完全不一样的。 

如果能从两边数据中找到恰当的数据融合的落脚点,那么我们就可能得到更多疾病与疾病、疾病与药物之间的关系。有了这个知识的融合工作,对药物重定位的启发,就更加有效。

这两类知识如何做统一融合? 

2. 突变数据协同的图模型和变分推断求解 

正如前面所述,我们这里有两套数据,一套是传统生命科学领域的关联数据P,它是0-1之间的数值,描述疾病和基因之间的关联关系度的值。另一套是生成语义关系的编码,描述基因和疾病之间的知识。

同时,我们设计了一个图模型,从生成关系的角度,寻找 γ 和 f 有什么关系,γ 和 p 有什么关系,这两个关系在这里就是一个开关,如果打开了 γ 是在 f 中获得更好的支持,如果 γ 和 p 打开了,说明 γ 在p中获得更好的支持。如果两个都关闭了,那么,说明 γ 在 p、f 获得的支持都不充分。 

他们之间是有很好的互补性,左边的f有很好的权威性、正确性,但覆盖度不够;右边的p有很好的广泛性,但他们之间的关联度不够。

所以通过LDA,贝叶斯网络,一点点推导出更大的图,这就完成了知识图谱数据融合的过程,如下图:

3. 融合多模态数的应用 

通过上述融合,我们得到了如下的融合知识图谱:

这个融合的知识图谱在发现老年痴呆推测中,获得了很好的效果,大多数结果都得到知识库的佐证。  

05
展望与进一步的研究 

下图是我们设想的一个理想的研究远景:这里说明了什么样的知识图谱对药物重定位研究是有用的。

我们认为,这里的图谱的特征是:

  • 关系链条不一定很长,基因和药物之间的影响关系要很明确,如谁抑制谁、谁激活谁。

  • 每一条证据最好是可以循证、溯源的。

参考资料:

◆ Kaiyin Zhou, Sheng Zhang, Yuxing Wang, Kevin Bretonnel Cohen, Jin-Dong Kim, Qi Luo, Xinzhi Yao, Xingyu Zhou, Jingbo Xia*. High-quality Gene/Disease Embedding in A Multi-relational Heterogeneous Graph After A Joint Matrix/tensor Decomposition. Journal of Biomedical Informatics. 2022, 126:103973.

◆Sizhuo Ouyang, Yuxing Wang, Kaiyin Zhou, Jingbo Xia*. LitCovid-AGAC: Cellular and Molecular Level Annotation Data Set Based on Covid-19. Genomics and Informatics, 2021; 19(3): e23.

◆ Kaiyin Zhou#, Yuxing Wang#, Kevin Bretonnel Cohen, Jin-Dong Kim, Xiaohang Ma, Zhixue Shen, Xiangyu Meng, Jingbo Xia*. Bridging Heterogeneous Mutation Data to Enhance Disease-Gene Discovery. Briefing in Bioinformatics, 2021, bbab079.

今天的分享就到这里,谢谢大家。


分享嘉宾:


 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
3

相关内容

城市大脑知识图谱构建及应用研究
专知会员服务
72+阅读 · 2022年6月28日
丁香园医疗领域图谱的构建与应用
专知会员服务
56+阅读 · 2022年6月21日
京东科技肖楠:基于金融场景的事理图谱构建与应用
专知会员服务
40+阅读 · 2022年6月17日
百度基于异构互联知识图谱的多模内容创作技术
专知会员服务
48+阅读 · 2022年6月7日
美团大脑百亿级知识图谱的构建及应用进展
专知会员服务
52+阅读 · 2022年6月5日
知识图谱在美团推荐场景中的应用
专知会员服务
63+阅读 · 2022年5月21日
专知会员服务
189+阅读 · 2021年3月22日
百度事件图谱技术与应用
专知会员服务
58+阅读 · 2020年12月30日
专知会员服务
142+阅读 · 2020年9月6日
基于深度神经网络的少样本学习综述
专知会员服务
171+阅读 · 2020年4月22日
图谱实战 | 10 个前沿落地应用案例分享(附下载)
开放知识图谱
6+阅读 · 2022年7月20日
图谱实战 | 城市大脑知识图谱构建及应用研究
开放知识图谱
1+阅读 · 2022年7月2日
图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建
开放知识图谱
3+阅读 · 2022年1月16日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
26+阅读 · 2020年3月1日
知识图谱的自动构建
DataFunTalk
55+阅读 · 2019年12月9日
刘挺 | 从知识图谱到事理图谱
开放知识图谱
48+阅读 · 2017年11月16日
【知识图谱】如何构建知识图谱
产业智能官
134+阅读 · 2017年9月19日
项目实战:如何构建知识图谱
PaperWeekly
30+阅读 · 2017年9月14日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
37+阅读 · 2017年9月12日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
14+阅读 · 2021年8月5日
Arxiv
19+阅读 · 2021年1月14日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
21+阅读 · 2019年3月25日
VIP会员
相关VIP内容
城市大脑知识图谱构建及应用研究
专知会员服务
72+阅读 · 2022年6月28日
丁香园医疗领域图谱的构建与应用
专知会员服务
56+阅读 · 2022年6月21日
京东科技肖楠:基于金融场景的事理图谱构建与应用
专知会员服务
40+阅读 · 2022年6月17日
百度基于异构互联知识图谱的多模内容创作技术
专知会员服务
48+阅读 · 2022年6月7日
美团大脑百亿级知识图谱的构建及应用进展
专知会员服务
52+阅读 · 2022年6月5日
知识图谱在美团推荐场景中的应用
专知会员服务
63+阅读 · 2022年5月21日
专知会员服务
189+阅读 · 2021年3月22日
百度事件图谱技术与应用
专知会员服务
58+阅读 · 2020年12月30日
专知会员服务
142+阅读 · 2020年9月6日
基于深度神经网络的少样本学习综述
专知会员服务
171+阅读 · 2020年4月22日
相关资讯
图谱实战 | 10 个前沿落地应用案例分享(附下载)
开放知识图谱
6+阅读 · 2022年7月20日
图谱实战 | 城市大脑知识图谱构建及应用研究
开放知识图谱
1+阅读 · 2022年7月2日
图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建
开放知识图谱
3+阅读 · 2022年1月16日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
26+阅读 · 2020年3月1日
知识图谱的自动构建
DataFunTalk
55+阅读 · 2019年12月9日
刘挺 | 从知识图谱到事理图谱
开放知识图谱
48+阅读 · 2017年11月16日
【知识图谱】如何构建知识图谱
产业智能官
134+阅读 · 2017年9月19日
项目实战:如何构建知识图谱
PaperWeekly
30+阅读 · 2017年9月14日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
37+阅读 · 2017年9月12日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员