北京智源人工智能研究院、晶泰科技、biendata 联合发布小分子性质预测大赛,奖金 10 万元。
药物研发一直是一项要花费大量时间、人力和财力的工作。其中,大量成本都会用于待选药物分子的测试实验上。虚拟筛选等计算技术可以缩小筛选对象集,降低制药成本,但是需要消耗较多的计算资源。如何利用已有数据建立优质的机器学习模型,逼近真实结果,将为虚拟药物设计找到准确度和成本的平衡点。化学信息学和机器学习在药物研发中的应用已经有一定的历史,在最近以深度学习为前沿的AI潮流下,行业正在探索更广泛的人工智能技术在药物发现中的应用。
根据分子结构信息预测分子可能的化学性质,将在化学研究和制药领域产生重要应用。目前,大部分潜在药物都是小分子,如果能根据结构提前预测小分子的性质,将减少药物的研发成本。
本次比赛的任务是根据从小分子结构中提取的 3177 维度特征,预测小分子的以下六个化学性质:‘Dipole Moment’,‘HOMO energy’,‘LUMO energy’,‘zero-point vibrational energy’,‘atomization energy at zero kelvin’, ‘atomization energy at room temperature’。这六个性质的准确预测对于药物的发现和开发将提供重要价值。
本次数据集来自 GDB-17 标准数据集,这是由 1660 亿个有机分子组成的小分子化学空间,由波恩大学提供 [8]。该化学空间里面的所有分子包含的重原子(即 C、S、O、N 等原子)个数小于 17 个。此后,Raghunathan Ramakrishnan 等人通过理论化学方法测算了其中 133,885 个小分子的性质 [9]。
为了便于没有化学领域知识的选手参与比赛,本次比赛的联合主办方晶泰科技从小分子结构中提取出 3177 个相关的分子描述符和分子指纹,作为数据的输入特征。
训练集
训练集数据集为 csv 文件,数据包括 80331 个分子的信息。其中第一列为分子 ID,第 2 列至 3178 列为分子的 3177 个分子描述符和分子指纹,作为数据的输入特征。第 3179 列至 3184 列是待预测的分子性质。
验证集
验证集和训练集格式类似,但是没有最后 6 列分子性质,需要选手预测。
测试集
测试集和验证集格式相同。测试集将于比赛结束前发布,选手需要在 48 小时内提交测试集的预测结果。测试集分数将最终决定比赛成绩。
样例提交文件
样例提交包括 1 列分子 ID 和 6 列待预测的分子性质。
[1] Prasad, Vinay, and Sham Mailankody. “Research and development spending to bring a single cancer drug to market and revenues after approval.” JAMA internal medicine 177.11 (2017): 1569-1575.
[2] Lavecchia, Antonio. “Machine-learning approaches in drug discovery: methods and applications.” Drug discovery today 20.3 (2015): 318-331.
[3] Burbidge, Robert, et al. “Drug design by machine learning: support vector machines for pharmaceutical data analysis.” Computers & chemistry 26.1 (2001): 5-14.
[4] Ballester PJ, Mitchell JBO. A machine learning approach to predicting protein-ligand binding affinity with applications to molecular docking. Bioinformatics 2010, 26:1169–1175.
[5] Mitchell, John BO. “Machine learning methods in chemoinformatics.” Wiley Interdisciplinary Reviews: Computational Molecular Science 4.5 (2014): 468-481.
[6] Ekins, Sean. “The next era: deep learning in pharmaceutical research.” Pharmaceutical research 33.11 (2016): 2594-2603.
[7] Liu, Ke, et al. “Chemi-Net: a molecular graph convolutional network for accurate drug property prediction.” International journal of molecular sciences 20.14 (2019): 3389.
[8] Ruddigkeit, L., van Deursen, R., Blum, L. C. & Reymond, J.-L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. J. Chem. Inf. Model. 52, 2864–2875 (2012).
[9] Ramakrishnan, Raghunathan, et al. “Quantum chemistry structures and properties of 134 kilo molecules.” Scientific data 1 (2014): 140022.
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 报名参赛