概率论与数理统计知识整理(4)--大数定律和中心极限定理

发表于 2016-10-18 标签数学

大数定律和中心极限定理都是与极限有关的定理，其中大数定律主要描述了当样本的数量足够多时，其均值(频率)可以用来逼近总体的期望（概率）；而中心极限定理则描述了在某些条件下，大量独立同分布的随机变量的和的分布逼近于正态分布。

大数定律

大数定律有弱大数定律和强大数定律，两者描述的都是样本数量越多，则其平均就越趋近期望值。两个简单的区别就是弱大数定律表示样本均值依概率收敛于总体均值，而强大数定律表示了样本均值可以以概率为1收敛于总体均值。弱大数定律比较早被证明出来，强大数定律是比较晚被证明出来的，通俗来说就是数学家先证明了弱大数定律，后来在没有改变前提的情况下把弱大数定律推进了一步，更加确定了这个收敛，也就是强大数定律。

这里主要讲几个弱大数定律的定义

弱大数定理（辛钦大数定理） 设 $X_1,X_2,...$ 是独立同分布的随机变量序列，且具有数学期望 $E(X_k) = \mu(k=1,2,,....)$,取前 n 个变量的算术平均 $\frac{1}{n} \sum_{k=1}^{n}X_k$, 对于任意的 $\epsilon$,有 \[\lim_{n \rightarrow \infty} P(|\frac{1}{n} \sum_{k=1}^{n}X_k - \mu| < \epsilon) = 1\]

定义描述的就是当样本数n足够大时，样本均值与总体期望的差可以无限小，也就是可以通过样本均值估计总体期望。基于上面的辛钦弱大数定理可以推出下面的伯努利大数定理

伯努利大数定理 设 $f_A$ 是 n 次独立重复试验中事件 $A$ 发生的次数，$p$ 是事件 $A$ 在每次试验中发生的概率，则对于任意正数 $> 0 $, 有$$\lim_{n \rightarrow \infty}P(|\frac{f_A}{n} - p| < \epsilon) = 1$$或$$\lim_{n \rightarrow \infty}P(|\frac{f_A}{n} - p| \ge \epsilon) = 0$$

伯努利大数定理主要描述当样本数足够大时，可以用样本的频率来估计总体的概率，其本质跟辛钦弱大数定理是一样的。

中心极限定理

一般来说，n个独立同分布的随机变量的和的分布函数是比较难求的，而通过中心极限定理，可以描述当n足够大的时候，这些随机变量的和的分布近似服从正态分布。下面主要讲述两条中心极限定理的

独立同分布的中心极限定理 随机变量 $X_1,X_2,...X_n$ 独立同分布，且具有数学期望$E(X_k) = \mu$, 和方差 $D(X_k) = \sigma^2 > 0(k=1,2,3...)$, 则随机变量之和 $\sum_{k=1}^n X_k$ 的标准化变量 \[Y_n = \frac{\sum_{k=1}^n X_k - E(\sum_{k=1}^n X_k)}{\sqrt{D(\sum_{k=1}^n X_k)}} = \frac{\sum_{k=1}^n X_k - n\mu}{\sqrt{n}\sigma}\]的分布函数 $F_n(x)$ 对于任意 $x$ 满足 \[\lim_{n \rightarrow \infty} F_n(x) = \lim_{n \rightarrow \infty}P(\frac{\sum_{k=1}^n X_k - n\mu}{\sqrt{n}\sigma}\le x) = \int_{-\infty}^x\frac{1}{\sqrt{2\pi}} e^{-t^2/2} dt\]

也就是说，当上面的 $n$ 充分大的时候，$\frac{\sum_{k=1}^n X_k - n\mu}{\sqrt{n}\sigma}$ 服从正态分布 $N(0,1)$

也可以将上面分布写成下面的形式

$\frac{ \overline X- \mu}{\sigma/\sqrt{n}}$~$N(0,1)$ 或 $\overline X$~$N(\mu, \sigma^2/n)$

也就是说，当样本的数量n足够大的时候，样本均值服从均值为 $\mu$, 方差为 $\sigma^2/n$ 的正态分布，其中 $\mu$ 和 $\sigma$ 分别是原来随机变量的所服从的分布的期望和方差，这一结果是数理统计中大样本统计推断的基础。

上面的独立同分布中每个随机变量都是同分布的，也就是具有同样的期望和方差，那么如果随机变量的分布独立呢？下面是对应这种情况的中心极限定理。

李雅普诺夫定理 设随机变量 $X_1,X_2,...X_n$ 相互独立，具有数学期望和方差\[E(X_k) = \mu_k, D(X_k) = \sigma_k^2 > 0,k=1,2,...\],记\[B_n^2 = \sum_{k=1}^n \sigma_k^2\] 若存在正数 $\delta$, 使得当 $n \rightarrow \infty$ 时，\[\frac{1}{B_n^{2+\delta}}\sum_{k=1}^{n} E(|X_k - \mu_k|^{2+\delta}) \rightarrow 0\] 定义随机变量 $Z_n$ 为\[Z_n = \frac{\sum_{k=1}^n X_k - \sum_{k=1}^n \mu_k}{B_n}\] 那么当n很大时,只要满足定理中的条件，那么随机变量 $Z_n$ 服从正态分布 $N(0,1)$。

也就是说当 n 很大的时候，随机变量的和 $\sum_{k=1}^{n}X_k$ 近似服从正态分布$N(\sum_{k=1}^n\mu_k, B_n^2)$

下面是应用中心极限定理的一个例子