本教材提供了一个全面的介绍统计原理,概念和方法,是必不可少的现代统计和数据科学。涵盖的主题包括基于可能性的推理,贝叶斯统计,回归,统计测试和不确定性的量化。此外,这本书讨论了在现代数据分析中有用的统计思想,包括bootstrapping,多元分布的建模,缺失数据分析,因果关系以及实验设计的原则。本教材包括两个学期课程的充足材料,旨在为数据科学、统计和计算机科学的硕士学生掌握概率论的基本知识。对于想要加强统计技能的数据科学从业者来说也是有用的。
第一章对为什么统计和统计思想在数据科学领域具有重要意义进行了一般性讨论。本书的这一章还将本书与侧重于统计和机器学习的其他书进行了对比。后面的第2-5章可以看作是统计估计理论的简要介绍。这两种方法我们都包括,频率理论和贝叶斯理论。换句话说,我们引入似然模型,就像解释数值方法一样,比如贝叶斯模型中的蒙特卡罗马尔可夫链。第6章讨论了统计检验,它与使用置信区间进行不确定性量化、贝叶斯推理和分类的方法相同。前六章提供了核心教学大纲,当然更多地关注理论和概念,但较少地关注应用。第7章着眼于回归模型的广泛领域,虽然本章更适用于此,但它肯定没有涵盖该领域,因为它应该与数据科学项目的普通教育有关。在我们看来,回归是统计学和数据科学的一个基本概念,应该在单独的讲座/课程中讨论;因此,这些材料需要包含在一个单独的书中,其中一些我们在我们的书中引用。然而,我们认为,一本不涉及回归的统计书也是不合适的。