Discovering the underlying dynamics of complex systems from data is an important practical topic. Constrained optimization algorithms are widely utilized and lead to many successes. Yet, such purely data-driven methods may bring about incorrect physics in the presence of random noise and cannot easily handle the situation with incomplete data. In this paper, a new iterative learning algorithm for complex turbulent systems with partial observations is developed that alternates between identifying model structures, recovering unobserved variables, and estimating parameters. First, a causality-based learning approach is utilized for the sparse identification of model structures, which takes into account certain physics knowledge that is pre-learned from data. It has unique advantages in coping with indirect coupling between features and is robust to the stochastic noise. A practical algorithm is designed to facilitate the causal inference for high-dimensional systems. Next, a systematic nonlinear stochastic parameterization is built to characterize the time evolution of the unobserved variables. Closed analytic formula via an efficient nonlinear data assimilation is exploited to sample the trajectories of the unobserved variables, which are then treated as synthetic observations to advance a rapid parameter estimation. Furthermore, the localization of the state variable dependence and the physics constraints are incorporated into the learning procedure, which mitigate the curse of dimensionality and prevent the finite time blow-up issue. Numerical experiments show that the new algorithm succeeds in identifying the model structure and providing suitable stochastic parameterizations for many complex nonlinear systems with chaotic dynamics, spatiotemporal multiscale structures, intermittency, and extreme events.
翻译:从数据中发现复杂系统的基本动态是一个重要的实际议题。 限制优化算法被广泛使用,并导致许多成功。 然而, 纯粹的数据驱动方法可能会在随机噪音存在的情况下带来不正确的物理, 并且无法轻易处理不完全的数据。 在本文中, 为复杂的动荡系统开发了一种新的迭代学习算法, 并进行部分观察, 其交替介于确定模型结构、 恢复未观测的变量 和估计参数 。 首先, 利用基于因果关系的学习方法, 以稀疏地识别模型结构, 其中考虑到从数据中预先获得的某些物理知识。 这种纯粹的数据驱动法在应对各功能之间的间接联动方面有着独特的优势, 并且对于随机噪音的噪音具有很强的优势。 一种实用的算法旨在为高度系统的因果推断提供便利。 下一步, 一种系统性的非线性统计参数参数参数参数参数化的演化, 利用一种基于高效的非线性数据同化模型的封闭式公式对未观测的变量的轨迹进行取样, 然后作为综合观察的轨迹学观察方法处理,, 将快速的轨迹变的轨测结构, 提供可变化 的精确化 的精确化过程,, 和变化 学习 度 度 度 的 的 度 的 的 的 的 的 的 的 的 的 的 的 和 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 和 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 和 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的