随机变量 - 统计学核心方法及其应用

2018 年 12 月 18 日 遇见数学

理论与数值计算相结合

涵盖理解和运用参数统计方法所需核心知识
为数据分析构建新方法

下文节选自《统计学核心方法及其应用》, 已获人邮图灵授权许可, [遇见数学] 特此表示感谢!

1.1 随机变量概述
统计学的本质是从具有不可预测性的数据中提取信息，随机变量则是为这种可变性建立模型的数学工具. 在每一次观测中，随机变量随机取不同的值. 我们无法提前预测随机变量的精确取值，但是可以对可能的取值做出概率性的刻画. 也就是说，我们可以描述随机变量的取值的分布. 本章简要回顾应用随机变量时所涉及的专业知识，以及一些常用的结果. 详细论述见参考文献 [8]、[19].

1.2 累积分布函数
随机变量（r.v.） $\text{[math]}$ 的累积分布函数（c.d.f.）是满足下式的函数 $\text{[math]}$ :

$\text{[math]}$

即， $\text{[math]}$ 给出了 $\text{[math]}$ 的取值小于或等于 $\text{[math]}$ 的概率. 显然， $\text{[math]}$ ，并且 $\text{[math]}$ 是单调函数. 该定义的一个有用的结论是，如果 $\text{[math]}$ 是连续函数，那么 $\text{[math]}$ 在 [0, 1] 上呈均匀分布：它取 0 和 1 之间任意值的概率是相等的. 这是因为

$\text{[math]}$

（如果 $\text{[math]}$ 是连续函数），那么后者是 [0, 1] 上的均匀随机变量的累积分布函数.

定义累积分布函数的反函数为 $\text{[math]}$ . 当 $\text{[math]}$ 为连续函数时， $\text{[math]}$ 正是 $\text{[math]}$ 在一般意义下的反函数. $\text{[math]}$ 通常叫作 $\text{[math]}$ 的分位函数. 如果 $\text{[math]}$ 在[0, 1] 上呈均匀分布，那么 $\text{[math]}$ 的分布就是 $\text{[math]}$ 的累积分布函数 $\text{[math]}$ . 对于可计算的 $\text{[math]}$ ，在给定均匀随机偏差的产生方式的前提下，上述定义给出了任意分布下的随机变量的生成方法.

令 $\text{[math]}$ 为 0 和 1 之间的一个数. $\text{[math]}$ 的 $\text{[math]}$ 分位数是一个数值， $\text{[math]}$ 小于或等于该值的概率是 $\text{[math]}$ ，即 $\text{[math]}$ . 分位数有广泛的应用，其中一个应用是验证 $\text{[math]}$ 是否是累积分布函数为 $\text{[math]}$ 的随机变量的观测值. 将 $\text{[math]}$ 按顺序排列，把它们作为“观测分位数”. 这些点和理论上的分位点 $\text{[math]}$ 共同绘制的图叫作分位数—分位数图（QQ 图）. 如果观测值来自于累积分布函数为 $\text{[math]}$ 的分布，那么得到的 QQ 图应该接近直线.

[遇见]小编推荐观看《视频 | QQ分位图的解释及画法》

1.3 概率函数与概率密度函数
在很多统计学方法中，描述随机变量取某个特定值的概率的函数比累积分布函数更有用. 为了探讨这类函数，首先需要区分取离散值（例如非负整数）的随机变量和取值为实数轴上的区间的随机变量.

对于离散型随机变量 $\text{[math]}$ ，概率函数（又叫概率质量函数） $\text{[math]}$ 是满足下式的函数：

$\text{[math]}$

显然，0 $\text{[math]}$ ，并且因为 $\text{[math]}$ 的取值一定存在，所以对 $\text{[math]}$ 的所有可能取值（记为 $\text{[math]}$ ）求和可得 $\text{[math]}$ .

对于连续型随机变量 $\text{[math]}$ ，因为它所有可能的取值有无限个，所以取任意特定值的概率一般是 0，因此，概率函数对连续型随机变量不适用. 取而代之的是概率密度函数 $\text{[math]}$ ，它给出了 $\text{[math]}$ 在 $\text{[math]}$ 附近的单位区间内取值的概率，即 $\text{[math]}$ . 更加正式的定义是，对任意常数 $\text{[math]}$ ，

$\text{[math]}$

显然， $\text{[math]}$ 必须满足 $\text{[math]}$ 且 $\text{[math]}$ . 注意， $\text{[math]}$ ，因此如果 $\text{[math]}$ 存在，那么 $\text{[math]}$ . 附录 A 给出了一些常用的标准分布的概率函数或概率密度函数.

除特别注明外，后续几节主要考虑连续型随机变量，用适当的求和代替积分，可以得到等价的对离散型随机变量适用的结果. 为了简洁起见，约定当自变量不同时，概率密度函数不同（例如， $\text{[math]}$ 和 $\text{[math]}$ 表示不同的概率密度函数）.

向上滑动阅三部套装简介, 购书链接

信息爆炸的大数据时代，统计越显重要，统计学亦已成为现代科学的重要工具之一，被广泛应用于各门学科之中，从自然科学到人文社会科学，甚至是工商业及政府的情报决策。在理性的基础上，所有的判断都源于统计学。

本书是英国巴斯大学统计学教授、R包mgcy作者西蒙•N.伍德为具有数理基础的读者精心撰写的统计学参考书，涵盖理解和运用参数统计方法所需的核心知识，为数据分析构建新的方法。主要内容如下。

●基本概率理论
●如何用极大似然法和贝叶斯方法解决统计模型和统计推断中的问题
●R语言概述
●极大似然估计的大样本理论及其应用
●贝叶斯计算所需的数值方法
●线性模型理论及其应用

前言阅读

第1章　随机变量阅读

第2章　统计模型与统计推断

第3章　R

第4章　极大似然估计理论

第5章　数值极大似然估计

第6章　贝叶斯计算

第7章　线性模型

附录 A 一些分布

附录 B 矩阵运算

附录 C 随机数生成

1.4 随机向量
从单次观测中很难得到有用的信息. 有效的统计分析需要多重观测和同时处理多元随机变量的能力. 因此，我们需要概率密度函数的多元形式. 二维的情形能够充分阐释所需的概念，因此考虑随机变量 $\text{[math]}$ 和 $\text{[math]}$ .

设 $\text{[math]}$ 是 $\text{[math]}$ 平面上的任意区域， $\text{[math]}$ 和 $\text{[math]}$ 的联合概率密度函数 $\text{[math]}$ 是满足下式的函数：

$\text{[math]}$

因此， $\text{[math]}$ 在 $\text{[math]}$ 的取值是 $\text{[math]}$ 平面上单位面积的概率. 设 $\text{[math]}$ 是包含点 $\text{[math]}$ 的面积为 $\text{[math]}$ 的小区域，那么 $\text{[math]}$ . 同单变量的概率密度函数一样， $\text{[math]}$ 是非负的，并且在 $\text{[math]}$ 上的积分值为 1.

例图1-1 给出了下式中的联合概率密度函数的图像.
$\text{[math]}$

该概率密度函数下的两个概率值的估计如图1-2所示.

1.4.1 边缘分布
继续沿用 $\text{[math]}$ 和 $\text{[math]}$ 的例子，忽略其中一个变量， $\text{[math]}$ 或 $\text{[math]}$ 的概率密度函数可以通过 $\text{[math]}$ 来计算. 在给定 $\text{[math]}$ 的条件下， $\text{[math]}$ 的概率密度就是 $\text{[math]}$ 的边缘概率密度函数. 由概率密度函数的定义显然可以得到

$\text{[math]}$

$\text{[math]}$ 的定义同理.

1.4.2条件分布
假设已知 $\text{[math]}$ 取定值 $\text{[math]}$ ，那么关于 $\text{[math]}$ 的分布，我们有什么结论？因为 $\text{[math]}$ 和 $\text{[math]}$ 的联合概率密度函数是 $\text{[math]}$ ，所以在给定 $\text{[math]}$ 的条件下，我们预计x的密度与 $\text{[math]}$ 成正比，即

$\text{[math]}$

其中 $\text{[math]}$ 是常数.如果 $\text{[math]}$ 是一个概率密度函数，那么它一定能够取到积分值 1. 因此

$\text{[math]}$

其中 $\text{[math]}$ 表示 $\text{[math]}$ 取 $\text{[math]}$ 时的边缘密度.因此我们有：

定义如果 $\text{[math]}$ 和 $\text{[math]}$ 的联合概率密度函数是 $\text{[math]}$ ，那么在 $\text{[math]}$ 的条件下， $\text{[math]}$ 的条件密度是

$\text{[math]}$ (1.3)

假设 $\text{[math]}$ .

注意，当 $\text{[math]}$ 取定值 $\text{[math]}$ 时，这是随机变量 $\text{[math]}$ 的概率密度函数.在意义明确的前提下，为了简洁起见,可以用 $\text{[math]}$ 代替 $\text{[math]}$ . 显然，在给定 $\text{[math]}$ 时， $\text{[math]}$ 的条件分布有类似的定义： $\text{[math]}$ . 联合概率密度函数和条件概率密度函数之间的关系如图1-3所示.