随着开放科学和开放资源的双重运动将越来越多的科学过程带入数字领域,科学本身的元科学研究(包括数据科学和统计)出现了新的机会。未来的科学很可能看到机器在处理、组织甚至创造科学知识方面发挥积极作用。为了使这成为可能,必须进行大量的工程努力来将科学工件转化为有用的计算资源,并且必须在科学理论、模型、实验和数据的组织方面取得概念上的进展。本论文的目标是将数据科学的两大主要产物——统计模型和数据分析——数字化和系统化。使用来自代数的工具,特别是分类逻辑,在统计和逻辑的模型之间进行了精确的类比,使统计模型在逻辑意义上被视为理论的模型。统计理论,作为代数结构,服从机器表示,并配备了形式化不同统计方法之间的关系的形态。从数学转向工程,设计和实现了一个软件系统,用于以Python或R程序的形式创建数据分析的机器表示。表示的目的是捕获数据分析的语义,独立于实现它们的编程语言和库。