随着开放科学和开放资源的双重运动将越来越多的科学过程带入数字领域,科学本身的元科学研究(包括数据科学和统计)出现了新的机会。未来的科学很可能看到机器在处理、组织甚至创造科学知识方面发挥积极作用。为了使这成为可能,必须进行大量的工程努力来将科学工件转化为有用的计算资源,并且必须在科学理论、模型、实验和数据的组织方面取得概念上的进展。本论文的目标是将数据科学的两大主要产物——统计模型和数据分析——数字化和系统化。使用来自代数的工具,特别是分类逻辑,在统计和逻辑的模型之间进行了精确的类比,使统计模型在逻辑意义上被视为理论的模型。统计理论,作为代数结构,服从机器表示,并配备了形式化不同统计方法之间的关系的形态。从数学转向工程,设计和实现了一个软件系统,用于以Python或R程序的形式创建数据分析的机器表示。表示的目的是捕获数据分析的语义,独立于实现它们的编程语言和库。

https://arxiv.org/abs/2006.08945

成为VIP会员查看完整内容
29

相关内容

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
135+阅读 · 2020年7月29日
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
244+阅读 · 2020年6月24日
【干货书】用于概率、统计和机器学习的Python,288页pdf
专知会员服务
209+阅读 · 2020年6月3日
【经典书】统计学习导论,434页pdf,斯坦福大学
专知会员服务
177+阅读 · 2020年4月29日
干货书《数据科学数学系基础》2020最新版,266页pdf
专知会员服务
273+阅读 · 2020年3月23日
机器学习领域必知必会的12种概率分布(附Python代码实现)
算法与数学之美
20+阅读 · 2019年10月18日
量子计算、边缘计算、数据挖掘 前沿研究报告
人工智能学家
6+阅读 · 2019年3月16日
自然语言处理基础:上下文词表征入门解读
机器之心
13+阅读 · 2019年3月2日
CCCF译文 | 机器学习如何影响本科生计算机课程
中国计算机学会
6+阅读 · 2019年2月18日
用于数学的 10 个优秀编程语言
算法与数据结构
9+阅读 · 2018年1月5日
OD-GCN: Object Detection by Knowledge Graph with GCN
Arxiv
4+阅读 · 2019年9月30日
Arxiv
20+阅读 · 2019年8月21日
Knowledge Based Machine Reading Comprehension
Arxiv
3+阅读 · 2018年9月12日
Arxiv
15+阅读 · 2018年4月5日
VIP会员
微信扫码咨询专知VIP会员