站在数据学科的角度, 融合数学、计算机科学、计量经济学的精髓.
If people do not believe that mathematics is simple, it is only because they do not realize how complicated life is.
如果有人不相信数学是简单的,那是因为他们没有意识到人生有多复杂。
——John von Neumann
下文节选自《精通数据科学:从线性回归到深度学习》, 已获异步授权许可, [遇见数学] 特此表示感谢!
毫无疑问,数学是数据科学的灵魂。不管是机器学习或是统计学模型,从本质上讲都是数学模型,因此,扎实的数学知识对于理解模型假设和分析模型结果至关重要。可能很多读者会觉得“数学”这两个字就代表了枯燥和难以理解,事实也许有时如此,但正如“计算机之父”冯·诺依曼说的那样,我们并不理解数学,只是越来越习惯它。本章的目的也一样, 就是让读者熟悉数据科学中常遇到的数学概念和数学符号,在阅读本书后续章节或者参考其他文献时,不再害怕面对它们。本章将简单介绍 3 个方面的数学知识。
矩阵和向量空间:矩阵是数据的基本表示形式,本书后面的所有章节都会涉及这部分内容。
概率:概率作为量化随机性的工具,是统计学和贝叶斯框架的核心内容。第 4、5、7、9 章中会有大量的概率运算及推导。
微积分:它是计算机解决最优化问题(也就是求函数的最值)的理论基础,出现频率较高的章节为第 6、12、13 章。
3.1 矩阵和向量空间
在数据科学领域,数据和模型的存在形式都是矩阵,而后者则直观地表示为向量空间里的点。矩阵和向量空间这两个数学概念是本节讨论的内容。
3.1.1 标量、向量与矩阵
首先通过一个简单例子来感性认识一下标量(scalar)、向量(vector)和矩阵(matrix)这 3 个数学概念。
假设我们设计了一款网络对战游戏,在游戏中,玩家选择自己的英雄与其他玩家对战。每个英雄的能力由 3 种属性描述:智力、敏捷和力量。为了方便表示,不妨用 i 表示智力、a 表示敏捷、s 表示力量。
对于英雄 A,它的设定是智力型英雄,智力被设定为 10,敏捷为 6 以及力量为 2,用数学式子表示为 i = 10, a = 6, s = 2。换句话说,我们用数字表表示各个属性具体的值,这在数学上就叫作标量,标量其实就是数字。
将这 3 个属性按照智力、敏捷和力量的顺序写在一起,就可以表示一个英雄的能力了。
比如用A = (10, 6, 2)表示英雄 A。在数学上A被称为向量,正确地说应该是行向量。直观上, 行向量是多个数字(标量)排成一行。与之类似的是列向量,即多个数字排成一列。
现在我们设计了另外 3 个英雄,分别为 B、C 和 D,向量表示为B = (3, 4, 10)、C = (5, 10, 4)和D = (6, 9, 5)。将这 4 个英雄的向量排列成矩形阵列,即每一行表示一个英雄,得到图 3-1 所示的矩阵,而这个矩阵就可以表示所有 4 个英雄的属性数据。
图3-1
用学术语言来定义矩阵:一个的矩阵,是一个由行列元素排列成的矩形阵列。比如公式(3-1)表示的就是一个的矩阵。从数学上来讲,标量和向量其实是比较特殊的矩阵。标量可以被看作一个的矩阵,而包含个数字行向量(也称为维行向量)可以看作一个的矩阵,而包含k个数字的列向量可以被认为是一个的矩阵。
在数学上,通常如公式(3-1)所示表示向量和矩阵,其中表示标量,也就是一个实数, 表示一个m维的行向量, 表示的矩阵,表示所有取值为实数的矩阵全体。本书后面的章节也采用相同的记号。需要注意的是,列向量可以表示为行向量的转置,因此没有专门记号来表示列向量。转置运算的细节请参考 3.1.3 节。
在讨论矩阵运算之前,先来看一类特殊的矩阵:方阵(squared matrix)。它是行数等于列数的矩阵。从形状上来看,它就像一个正方形,因此被称为方阵。有 3 种方阵需要特别注意。
• 单位矩阵(identity matrix),矩阵的对角线元素等于 1,其他元素等于 0,记为。
为了能像使用数字一样使用矩阵,我们为它定义了“加减乘除”四种运算。
1.矩阵的加减法
(1)与数字的加减法不同,并不是任何两个矩阵都可以进行加减运算,要求矩阵的形状是一样的,也就是它们的行数和列数都相等。假设矩阵同为的矩阵,则它们的和差仍为的矩阵,具体的加减法定义如下:
其实之间的内积可以表达为矩阵乘法,即. 数学上可以证明公式(3-16),其中 为点到原点的距离的定义类似;为向量之间的夹脚,如图3-3b 所示。注意到当到原点的距离等于1 时,就是向量在向量 B 方向上投影的长度:

数学上可以证明,对于三阶的对称矩阵,存在3 个相互正交的特征向量,而它们可以组成三维空间的一组基。有了上面的结论,公式(3-17)定义的问题就很好解决了:就是最大特征值对应的特征向量。
上面有关向量空间、内积、向量间夹脚以及正交的定义可以推广到任意维度的空间。有关特征向量、特征值的定义和结论也如此。(本节完)