我们开发了一个深度学习框架来发现Koopman网络模型,该模型映射了所有测量的生物电路输出、实验输入参数和背景设计参数之间的因果关系。我们发现了测量(如多个荧光报告器)和监测的实验参数(如光密度(OD)、温度、诱导剂浓度、培养基的年龄)的因果关系的动态网络模型,从而概括了任意非线性系统的动态结构函数(和传递函数)的概念。这些模型被用来确定具有类似行为的生物部分或生物电路的类别和关系,推断潜在变量的状态以产生实验惊喜的假设,预测和评估稳定系统行为的操作包络,并定量预测生物电路动态响应作为实验参数的函数。我们项目中的方法结合了深度学习算法的表达能力、可扩展性和Koopman算子理论的严谨性,以发现数据驱动的动态系统模型,用于假设生成和生物电路表征。
最先进的模型发现方法通常利用关于模型结构的先验信息。例如,贝叶斯分层模型识别方法基于模型先验知识推断出模型类别和参数。压缩感应算法基于预先定义的基础函数字典来识别输入-输出和动态模型。最先进的学习Koopman算子的方法依赖于动态模式分解(DMD),它利用线性模型来近似无穷大的Koopman算子。因此,这些方法依赖于科学家的创造力来提供先验的典型模型。这限制了它们在缺乏规范模型的领域的适用性,如合成生物学、神经科学、人机系统或社会系统。
在合成生物电路设计方面,数据驱动的科学模型发现受到三个主要技术挑战的阻碍。1)在未建模的动态情况下学习生物电路变量之间的定量关系,2)了解这些关系如何作为生物电路背景的函数而变化,以及3)在生物电路模型中转换设计变量和背景之间的关系,以预测生物电路的稳定运行包络。由于这些挑战,科学发现通常依赖于手工或半自动的数据收集,然后由人类对数据进行解释。模型被视为确认人类产生的假设的一种手段,而不是发现新的科学假设的一种手段。同样,这是因为模型是围绕科学家提供的第一原理而构建的,而不是来自数据驱动的算法。
我们开发了一种数据驱动的方法来学习网络模型,其分辨率与数据中可用的空间和时间尺度相称。我们没有试图为一个详细的第一原理模型完全填充所有的动力学参数,而是开发了只描述测量的或已知的实验变量之间因果关系的网络模型。利用这个计算框架,我们项目的主要成果将在下面的章节中概述。