The drug discovery and development process is a long and expensive one, costing over 1 billion USD on average per drug and taking 10-15 years. To reduce the high levels of attrition throughout the process, there has been a growing interest in applying machine learning methodologies to various stages of drug discovery process in the recent decade, including at the earliest stage - identification of druggable disease genes. In this paper, we have developed a new tensor factorisation model to predict potential drug targets (i.e.,genes or proteins) for diseases. We created a three dimensional tensor which consists of 1,048 targets, 860 diseases and 230,011 evidence attributes and clinical outcomes connecting them, using data extracted from the Open Targets and PharmaProjects databases. We enriched the data with gene representations learned from a drug discovery-oriented knowledge graph and applied our proposed method to predict the clinical outcomes for unseen target and dis-ease pairs. We designed three evaluation strategies to measure the prediction performance and benchmarked several commonly used machine learning classifiers together with matrix and tensor factorisation methods. The result shows that incorporating knowledge graph embeddings significantly improves the prediction accuracy and that training tensor factorisation alongside a dense neural network outperforms other methods. In summary, our framework combines two actively studied machine learning approaches to disease target identification, tensor factorisation and knowledge graph representation learning, which could be a promising avenue for further exploration in data-driven drug discovery.


翻译:药物发现和开发过程是一个漫长而昂贵的过程,每个药物平均花费10亿多美元,耗时10至15年。为了在整个过程中降低高自然减员水平,人们越来越有兴趣将机器学习方法应用于最近十年药物发现过程的各个阶段,包括最初阶段的药物可感染疾病基因的识别。在本文件中,我们开发了一个新的刺激因素模型,以预测潜在的疾病药物目标(即基因或蛋白质),我们创建了三维抗体,其中包括1,048个目标、860个疾病和230 011个证据属性和临床结果。为了在整个过程中降低高自然减员水平,我们利用开放目标和制药项目数据库中提取的数据,对近十年来药物发现过程的各个阶段,包括最初阶段的药物发现知识图表,我们用拟议方法来预测隐蔽目标和不适配配配配配的疾病临床结果(即基因或蛋白质)。我们设计了三项评价战略,以衡量预测业绩和基准衡量一些常用的机器学习分解器以及矩阵和聚合分解法的方法。结果显示,将知识图表嵌入其他预测精确度和训练沙质分析方法,同时结合了我们研究的沙质分析结构结构的模型,并结合了一种研究模型的模型的模型的模型。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2020年12月18日
机器学习入门的经验与建议
专知会员服务
89+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2019年4月29日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Multi-Slice Clustering for 3-order Tensor Data
Arxiv
0+阅读 · 2021年9月22日
Type-augmented Relation Prediction in Knowledge Graphs
Arxiv
7+阅读 · 2018年8月28日
Arxiv
7+阅读 · 2018年3月21日
VIP会员
相关VIP内容
专知会员服务
41+阅读 · 2020年12月18日
机器学习入门的经验与建议
专知会员服务
89+阅读 · 2019年10月10日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2019年4月29日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Top
微信扫码咨询专知VIP会员