会员服务 ·

AI研发新药真有那么神？可能哈佛、斯坦福和阿斯利康实验室都在吹牛

2018 年 1 月 6 日 量子位 专注报道AI

安妮李林编译自 Medium
量子位出品 | 公众号 QbitAI

近年来，向往着用AI研发新药的美好愿景，巨头纷纷投下了重注。

制药巨头赛诺菲和AI药物发现平台Exscientia签下3亿美元巨额订单，葛兰素史克随后也出了4200万美元。默克和Atomwise、强生旗下的杨森制药与BenevolentAI也都有类似的合作。

风投也非常看好这个领域。硅谷VC公司安德森·霍洛维茨（A16Z）为投资AI药物发现公司，组建了一支4.5亿美元的基金。

好像巨头都上车了，小玩家要不要跟上？

今天，硅谷极客们最爱的HackerNews上有一篇热门文章就在探讨这件事。大部分评论者都同意这篇文章的基本观点：AI在药物发现中的作用被过度吹捧了。

这篇文章通过分析制药公司阿斯利康、名校哈佛和斯坦福、以及创业公司Insilico Medicine等名声卓著的实验室最近的一些研究，来说明AI研究者是如何过度吹捧他们的成果的。

以下是这篇热门文章的主要内容，量子位编译整理：

△ 1981年的《财富》杂志封面：

在默克，用计算机设计药物

我乐观地认为，这些事情2018年会有变化。这可能并不是因为人工智能的突破，而是因为这些研发机构会有进步：现在，随着在线教育和社交媒体的兴起，更强力的检查和平衡已经成为可能，为开放同行评议提供了新机会，这会成为挤泡沫的力量。

接下来，让我们进入技术部分，谈谈最近一些过度吹捧的AI研究案例。

阿斯利康

最近，英国制药公司阿斯利康和明斯特大学、上海大学的研究者一起发表了一项研究，尝试用循环神经网络（RNN）和强化学习来生成新分子。

△ 真正的多样性：蓝色圆点代表AI生成的分子，红色十字代表自然分子

而实际上，如果AI生成的分子之间距离很小，这就意味着我们陷入了下图所示的状况，模型所产生的分子基本位于同一位置，并没有多样性：

△ 多样性错觉：AI生成的分子（蓝色圆点）和自然分子（红色十字）之间仍然有很大距离，但AI生成的分子集中在一起

简单来说，阿斯利康这篇论文对房间里的大象视而不见，最近这家公司一些其他论文依然有这个问题。

比如：

Molecular De Novo Design through Deep Reinforcement Learning
https://arxiv.org/abs/1704.07555

Application of generative autoencoder in de novo molecular design
https://arxiv.org/abs/1711.07839

哈佛

哈佛的一个团队注意到了这个多样性的问题。他们通过查看人工智能生成的样本，感觉出了问题，想要做点什么，于是提出了ORGAN模型。

斯坦福

斯坦福有个用AI和深度学习研究化学的大团队，团队负责人是Vijay Pande，具有斯坦福教授和A16Z风投公司投资人的双重身份。

在Vijay Pande管理的投资项目中，“专为用机器学习方法测试分子性质而设计的基准”MoleculeNet最受关注的一个。

这个项目看起来画风严肃，包含大量化学知识、图形及深度学习模型，尤其关注graph-CNN和斯坦福团队其他为化学问题特制的神经网络。

△ MoleculeNet中的特制图

然而，还有一个大家心知肚明但却避而不谈的问题：上述Pande团队没有努力将他们的数据插入到一个字符级的卷积神经网络（char-CNN）中。自2015年Yann LeCun的论文Text Understanding from Scratch提出这种方法后，字符级CNN就容易被例行公事地用在各种AI任务中进行文本处理，并且比graph-CNN简单得多。

如果想使用字符级CNN，插入“SMILES（simplified molecular-input line-entry system）”字符串就好了。

回过头来想想，为什么斯坦福的研究人员不选择这种更简单的操作呢？在论文MoleculeNet: A Benchmark for Molecular Machine Learning的第17页，我们可以看到：

最近的研究已经证明了用更复杂的方法从SMILES字符串学习有用表示的能力，所以在不久的将来，将SMILES字符串用于进一步的学习任务是可行的。

MoleculeNet: A Benchmark for Molecular Machine Learning
https://arxiv.org/abs/1703.00564

我不太相信字符级CNN对这个斯坦福团队来说过于复杂了，他们甚至在另外一篇文章中用到了字符级CNN。

Retrosynthetic reaction prediction using neural sequence-to-sequence models
https://arxiv.org/abs/1706.01643

一个更合理、更尴尬的解释是，他们害怕字符级CNN的效果会更好。这意味着，他们心爱的graph-CNN模型将在分子基准测试中被击败，而这并不符合他们的期望。

原因很简单。DeepChem是一个斯坦福领导的开源库，用来实现MoleculeNet模型。如果字符级CNN比graph-CNN效果好，那么实践者就无需DeepChem了，他们可以直接用简单的TensorFlow或Pytorch实现。

△ DeepChem主页

在2018年，开源框架是一种战略性资产，就像通过Android，谷歌主宰了移动操作系统市场一样。DeepChem可能也想走一条类似的道路，控制AI在药物发现领域的发展。这可能就是MoleculeNet对字符级CNN视而不见的原因。

我自己使用DeepChem的经历印证了这个推测。曾经我天真地想在项目中使用DeepChem，直到我发现，无法将DeepChem模型和非DeepChem模型混合在一起。用DeepChem辨别器和非DeepChem生成器对对抗训练很有用，但我无法实现这个想法。相反，我被牢牢锁在DeepChem的代码中，没有料想到还有如此恶意的东西。

为了逃离这个陷阱，让DeepChem真正开源，我不得不挖掘复杂的代码。

项目地址：
https://github.com/mostafachatillon/deepchem

对于一个更成熟的项目来说，这样做会更加困难。所以我的印象是，用这种“厂商锁定”的策略，DeepChem想吃掉AI世界来做化学研究。所以我对他们的合作投资人中有Marc Andreessen一点都不惊异。

△ Marc Andreessen曾有句名言：简而言之，软件正在吃掉世界

虽然MoleculeNet的团队成员刻意避免用字符级CNN做基准测试，但他们仍为MoleculeNet和DeepChem设计了精美的网页。这表明他们还是太注重表面，PR优先于坚实的科学研究。这也是硅谷的典型策略，初创公司设计虚假产品吸引流量，然后依靠社区来构建真实的东西。

△ 硅谷知道，设计外表面比建造房屋更有用

Insilico Medicine

Insilico Medicine是AI创业公司中生成模型的先驱。在一篇论文中，Alex Zhavoronkov和他的团队提出了DruGAN,一种先进的生成式对抗自编码模型。我一直搞不明白这个模型哪里先进了。

druGAN: An Advanced Generative Adversarial Autoencoder Model for de Novo Generation of New Molecules with Desired Molecular Properties in Silico
http://pubs.acs.org/doi/abs/10.1021/acs.molpharmaceut.7b00346

就发现药物这个需求来说，DruGAN肯定已经不先进了：它和其他的生成模型有相同的缺点，可能会让人失望。

在最近的一篇论文中他们使用了更复杂的工具，但也称不上先进吧。在他们论文的第9-10页，有这样一段话：