10万奖金助力AI加速药物研发!智源联合晶泰科技发布小分子预测大赛

2020 年 2 月 21 日 PaperWeekly


北京智源人工智能研究院、晶泰科技、biendata 联合发布小分子性质预测大赛,奖金 10 万元。

人类与新型冠状病毒所引发的疫情(COVID-19)已战斗多日,针对病症是否有相应的特效药物也成为了公众关心的重点。同时,我们知道,药物研发过程是极为浩大,严谨的科学研究,例如目前正处于临床验证阶段的瑞德西韦,虽然已经经历了多年的研究,但仍需从临床上确定其对新冠病毒是否有疗效。 
著名的医学期刊 JAMA 的一篇调查论文显示,研发一款癌症药物的成本在 6.48 亿美元左右 [1] 。其中,大量成本都会用于待选药物分子的测试实验上。虚拟筛选等计算技术可以缩小筛选对象集,降低制药成本,而机器学习技术的出现极大地辅助了计算机辅助药物设计的进步。
因此,化学信息学或药物研发领域开始使用各种机器学习技术,包括 SVM [3] 、随机森林 [4] 和深度学习 [5][6] ,以及图神经网络 [7] 等。不过,相关技术仍有提升空间,人工智能、化学和生物医学领域也在探索新的技术发现方法。 
2020 年 2 月,北京智源人工智能研究院、专注于 AI 驱动药物研发的科技企业晶泰科技、数据评测平台 biendata,共同发布了“智源小分子化合物性质预测挑战赛”,并同步开放了评测竞赛,总奖金 10 万元。
本次比赛要求选手根据从小分子结构中提取的 3177 维度特征,预测对于药物发现和开发有重要价值的六个化学性质。希望能发挥计算之所长,通过运用公开数据库或者文献数据与成果,助力加速药物发现,为尽早开发出治疗疾病的有效药物贡献一份力量。 
扫描下方海报二维码或点击阅读原文即可参与本次比赛。 



比赛背景

药物研发一直是一项要花费大量时间、人力和财力的工作。其中,大量成本都会用于待选药物分子的测试实验上。虚拟筛选等计算技术可以缩小筛选对象集,降低制药成本,但是需要消耗较多的计算资源。如何利用已有数据建立优质的机器学习模型,逼近真实结果,将为虚拟药物设计找到准确度和成本的平衡点。化学信息学和机器学习在药物研发中的应用已经有一定的历史,在最近以深度学习为前沿的AI潮流下,行业正在探索更广泛的人工智能技术在药物发现中的应用。


比赛任务

根据分子结构信息预测分子可能的化学性质,将在化学研究和制药领域产生重要应用。目前,大部分潜在药物都是小分子,如果能根据结构提前预测小分子的性质,将减少药物的研发成本。 


本次比赛的任务是根据从小分子结构中提取的 3177 维度特征,预测小分子的以下六个化学性质:‘Dipole Moment’,‘HOMO energy’,‘LUMO energy’,‘zero-point vibrational energy’,‘atomization energy at zero kelvin’, ‘atomization energy at room temperature’。这六个性质的准确预测对于药物的发现和开发将提供重要价值。


数据描述


本次数据集来自 GDB-17 标准数据集,这是由 1660 亿个有机分子组成的小分子化学空间,由波恩大学提供 [8]。该化学空间里面的所有分子包含的重原子(即 C、S、O、N 等原子)个数小于 17 个。此后,Raghunathan Ramakrishnan 等人通过理论化学方法测算了其中 133,885 个小分子的性质 [9]。 


为了便于没有化学领域知识的选手参与比赛,本次比赛的联合主办方晶泰科技从小分子结构中提取出 3177 个相关的分子描述符和分子指纹,作为数据的输入特征。


训练集


训练集数据集为 csv 文件,数据包括 80331 个分子的信息。其中第一列为分子 ID,第 2 列至 3178 列为分子的 3177 个分子描述符和分子指纹,作为数据的输入特征。第 3179 列至 3184 列是待预测的分子性质。


验证集


验证集和训练集格式类似,但是没有最后 6 列分子性质,需要选手预测。


测试集


测试集和验证集格式相同。测试集将于比赛结束前发布,选手需要在 48 小时内提交测试集的预测结果。测试集分数将最终决定比赛成绩。


样例提交文件


样例提交包括 1 列分子 ID 和 6 列待预测的分子性质。


参考文献


[1] Prasad, Vinay, and Sham Mailankody. “Research and development spending to bring a single cancer drug to market and revenues after approval.” JAMA internal medicine 177.11 (2017): 1569-1575. 

[2] Lavecchia, Antonio. “Machine-learning approaches in drug discovery: methods and applications.” Drug discovery today 20.3 (2015): 318-331. 

[3] Burbidge, Robert, et al. “Drug design by machine learning: support vector machines for pharmaceutical data analysis.” Computers & chemistry 26.1 (2001): 5-14. 

[4] Ballester PJ, Mitchell JBO. A machine learning approach to predicting protein-ligand binding affinity with applications to molecular docking. Bioinformatics 2010, 26:1169–1175. 

[5] Mitchell, John BO. “Machine learning methods in chemoinformatics.” Wiley Interdisciplinary Reviews: Computational Molecular Science 4.5 (2014): 468-481. 

[6] Ekins, Sean. “The next era: deep learning in pharmaceutical research.” Pharmaceutical research 33.11 (2016): 2594-2603. 

[7] Liu, Ke, et al. “Chemi-Net: a molecular graph convolutional network for accurate drug property prediction.” International journal of molecular sciences 20.14 (2019): 3389. 

[8] Ruddigkeit, L., van Deursen, R., Blum, L. C. & Reymond, J.-L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. J. Chem. Inf. Model. 52, 2864–2875 (2012). 

[9] Ramakrishnan, Raghunathan, et al. “Quantum chemistry structures and properties of 134 kilo molecules.” Scientific data 1 (2014): 140022.


北京智源人工智能研究院

北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)。智源研究院是落实“北京智源行动计划”的重要举措,在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府推动成立,是依托北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团点评、旷视科技等北京人工智能领域优势单位共建的新型研发机构。在 2018 年 11 月 14 日举行的 2018 中国(北京)跨国技术转移大会开幕式上,智源研究院正式揭牌。 

晶泰科技


晶泰科技(XtalPi)是一家以计算驱动创新的药物研发科技公司,基于前沿计算物理、量子化学、人工智能与云计算技术,为全球创新药企提供智能化药物研发服务。我们希望通过提高药物研发关键环节的效率与成功率、降低研发成本,为患者带来更多优质的药物。晶泰科技创立于麻省理工学院(MIT)校园,核心团队由来自学术界、IT 互联网界及医药产业界的优秀人才组成。晶泰科技已经成功为来自美国、欧洲、中国、日本的 40 余家先锋药企提供了药物研发服务。

Biendata


数据竞赛平台 Biendata 于 2015 年启动,并于 2017 年开始独立运营。到目前为止,biendata 已组织超过 50 场数据竞赛、学术评测和公司内部竞赛,吸引超过十万人次参赛,并为数家公司和大学提供数据咨询及课程支持的服务。Biendata 合作方既包括字节跳动、搜狐、微软、知乎、摩拜等企业,也包括了 IEEE、ACM KDD、WSDM、CVPR、中国计算机学会、中国人工智能学会等国内外顶尖学术组织和会议。



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


▽ 点击 | 阅读原文 | 报名参赛

登录查看更多
1

相关内容

晶泰科技是一家量子物理与人工智能赋能的药物研发公司,通过提高药物研发的速度、规模、创新性和成功率,致力于实现药物研发的行业革新。作为一家立足中美、服务全球的企业,晶泰科技始终坚持探索最优解决方案,以充分利用前沿的研发与计算资源,最大化满足客户与合作方的需求。 晶泰科技的智能药物研发平台将基于云端超算数字化研发工具与先进的实验能力进行整合,形成高精度预测与针对性实验相互印证、相互指导的研发系统。作为全球先锋人工智能药物研发公司之一,晶泰科技已建立起一整套量子物理干实验室与先进湿实验室紧密结合的研发迭代流程,挑战传统研发的效率瓶颈,赋能新药研发实现创新速度与规模的突破。
人机对抗智能技术
专知会员服务
202+阅读 · 2020年5月3日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
164+阅读 · 2020年2月27日
2019中国硬科技发展白皮书 193页
专知会员服务
82+阅读 · 2019年12月13日
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
121+阅读 · 2019年10月10日
竞赛推荐 | 奖金池20万:钢筋数量AI识别比赛
极市平台
3+阅读 · 2019年1月12日
报名 | 清华大学“智慧医学影像论坛2018”
数据派THU
8+阅读 · 2018年6月27日
已删除
将门创投
6+阅读 · 2017年7月6日
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
VrR-VG: Refocusing Visually-Relevant Relationships
Arxiv
6+阅读 · 2019年8月26日
Arxiv
19+阅读 · 2018年5月17日
Arxiv
3+阅读 · 2017年12月14日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
Top
微信扫码咨询专知VIP会员