在过去的几年里,对于分子生物学中的每一个步骤,取得了显著的进展。虽然我们尚未完全将分子生物学转变为计算科学,或者将医学和人类健康变成一门工程学科,但目前的势头表明我们离这一愿景只有丰富的额外数据和一些进一步的发展。这种进展在某种程度上与人工智能应用的其他领域有所不同。就个人而言,我相信人工通用智能(AGI),即使是小型哺乳动物的水平,仍然在地平线之外。此外,组合学、离散算法和数学推理并不是LLM(大型语言模型)的强项。这是因为这些模型是前馈架构,不包括循环,除非通过将迄今生成的文本反馈给LLM作为输入而隐含地产生循环。正如Stephen Wolfram在他优秀的概述中所解释的,计算不可简化性保证了这些模型不能做某些事情(Wolfram 2023)。值得一提的是,这种能力的火花正在开始在GPT-4等系统中出现,正如Bubek等人在2023年所描述的那样。然而,对分子生物学的建模并不需要AGI:它不需要高层次的规划、主动性或目标,而且仅对组合学和算法推理有有限的需求。相反,对分子生物学的建模需要LLM在以下方面表现出色:学习复杂、嘈杂的序列数据的统计特性,以最佳方式从有损表示中预测这些数据。为了阐明这一观点,让我们来看一下在分子生物学中的中心法则的几个不同阶段近期的深度学习突破。