吴良超的学习笔记

概率论与数理统计知识整理(3)--随机变量的统计特征

随机变量的统计特征主要包括期望,方差,协方差以及相关系数。

期望

离散型随机变量:$$E(X) = \sum_{k=1}^{ +\infty}p_kx_k$$

连续型随机变量:$$E(X) = \int_{-\infty}^{ +\infty} {xf(x)dx} $$

期望有以下性质(C为常数,其他均为随机变量):

$E(C) = C$

$E(CX) = CE(X)$

$E(X+Y) = E(X)+E(Y)$

$E(XY) = E(X)E(Y) $ ($X,Y$ 相互独立)

前面讨论随机变量的分布函数时,同时讨论了随机变量的函数的分布函数,这里同样对于随机变量 $X$ 的函数的期望进行讨论,其定义及求法如下所示。

设Y是随机变量X的函数:$Y=g(X)$(g是连续函数)

(1) 如果 $X$ 是离散型随机变量,它的分布律为
$$P(X=x_k) = p_k, k = 1,2,…$$
若 $\sum_{k=1}^{\infty}g(x_k)p_k $绝对收敛,则有
$$E(Y) = E[g(X)] = \sum_{k=1}^{\infty}g(x_k)p_k $$

(2) 如果 X 是连续型随机变量,它的概率密度函数为 $f(x)$, 若 $\int_{-\infty}^{\infty}g(x)f(x)dx$ 绝对收敛,则有
$$E(Y) = E[g(X)] = \int_{-\infty}^{\infty}g(x)f(x)dx$$

这个定理的重要意义在于求 $E(Y)$ 的时候,不用再求 Y 的分布律或概率密度函数,直接利用 X 的分布律或概率密度函数即可。

方差

方差的原始定义为

$D(X) = E[(X-E(X))^2] = E(X^2) - E(X)^2$

方差有以下性质:

$D(C) = 0$

$D(CX) = C^2D(X)$

$D(X+Y) = D(X) + D(Y) + 2E([X-E(X)][Y-E(Y)]) $

如果 $X,Y$ 是相互独立的,那么$E([X-E(X)][Y-E(Y)]) = 0$, 当这一项不为0的时候,称作变量 $X,Y$ 的协方差。

常见分布的期望和方差

前面我们提到了若干种典型的离散分布和连续分布,下面是这几种分布的期望和方差,记住这些常用的期望和方差能够在使用的时候省去推导过程。

分布类型 概率密度函数 期望 方差
伯努利分布~$B(1,p)$ $p = p^x(1-p)^{1-x}$ $p$ $p(1-p)$
二项分布~$B(n,p)$ $p_i = C_n^i p^i(1-p)^{n-i}(i=1,2,3…)$ $np$ $np(1-p)$
泊松分布~$P(\lambda)$ $p_i = \frac{\lambda^ki e^{-\lambda}}{i!}(i = 1,2,3,) $ $\lambda$ $\lambda$
均匀分布~$U(a,b)$ $f(x) = \frac{1}{b-a}$ $\frac{a+b}{2}$ $\frac{(b-a)^2}{12}$
正态分布~$N(\mu,\sigma^2)$ $f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ $\mu$ $\sigma^2$
指数分布~$E(\lambda)$ $$f(x) = \begin{cases} \lambda e^{-x\lambda} &{x>0} \\ 0&{其他}\end{cases}$$ $\frac{1}{\lambda}$ $\frac{1}{\lambda^2}$

切比雪夫不等式

切比雪夫不等式的定义如下:

设随机变量 $X$ 具有数学期望 $E(X) = \mu$, 方差 $D(X) = \sigma^2$, 则对于任意正数 $\epsilon$, 下面的不等式成立$$P(|X-\mu|\ge \epsilon) \le \frac{\sigma^2}{\epsilon^2}$$

从定义可知,切比雪夫不等式也可写成如下的形式:

$$P(|X-\mu| \le \epsilon) \ge 1 - \frac{\sigma^2}{\epsilon^2}$$

切比雪夫不等式的一个重要意义在于当随机变量 X 的分布未知,只知道 $E(X)$ 和 $D(X)$ 的情况下,对于事件 $(|X-\mu| \le \epsilon) $ 概率的下限的估计

协方差

协方差表达了两个随机变量的相关性,正的协方差表达了正相关性,负的协方差表达了负相关性。协方差为0 表示两者不相关,对于同样的两个随机变量来说,计算出的协方差的绝对值越大,相关性越强

协方差的定义入下:

$Cov(X,Y) = E{[X-E(X)][Y-E(Y)]}$

由定义可以知下面等式成立:

$Cov(X,Y) = Cov(Y,X)$
$Cov(X,Y) = E(XY) - E(X)E(Y)$

协方差有以下性质:

$Cov(aX,bY) = abCov(X,Y)$(a,b是常数)

$Cov(X_1+X_2, Y) = Cov(X_1, Y) + Cov(X_2,Y)$

假如我们现在有身高和体重这两个未知变量,对于一系列的样本我们算出的的协方差为30,那这究竟是多大的一个量呢?如果我们又发现,身高与鞋号的协方差为5,是否说明,相对于鞋号,身高与体重的的相关性更强呢?

为了能进行这样的横向对比,我们计算相关系数(correlation coefficient), 相关系数相当于是“归一化”的协方差。

$$\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{D(X)D(Y)}}$$

相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化,等于0表示不相关。再也不会出现因为计量单位变化,而数值变化较大的情况,而相关系数的大小的含义与协方差是一样的。

需要注意的是上面提到的相关均指线性相关,$X, Y$ 不相关是指 $X,Y$ 之间不存在线性关系,但是他们还可能存在除线性关系以外的关系。因此,有以下结论: $X,Y$ 相互独立则 $X,Y$ 一定不相关;反之 $X,Y$ 不相关,两者不一定相互独立。

简单的证明如下:
当 $X,Y$ 相互独立的时候有 $E(XY) = E(X)E(Y)$ , 根据上面协方差的展开式

$Cov(X,Y) = E(XY) - E(X)E(Y)$

此时协方差为零,两者不相关。

而当 $X, Y$ 不相关的时候举一个反例如下:

不相关但是不独立的例子

上面的例子来源于https://www.zhihu.com/question/26583332, 可知计算出来的协方差为0,即两者不相关,但是 $P(XY) \neq P(X)P(Y)$,即 两者不独立,注意 $E(XY) = E(X)E(Y)$ 不是 $X,Y$ 独立的充分条件。

矩和协方差矩阵

下面介绍概率论中几种矩的定义

设 $X,Y$ 为随机变量,则

$E(X^k), k=1,2,3….$ 称为 $X$ 的 $k$ 阶原点矩,简称 $k$ 阶矩

$E((X-E[X])^k), k=1,2,3….$ 称为 $X$ 的 $k$ 阶中心距

$E(X^kY^l),k,l=1,2,…$ 称为 $X$ 和 $Y$ 的 $k+l$ 阶混合矩

$E((X-E[X])^k(Y-E[Y])^l)),k,l=1,2,…$称为$X$ 和 $Y$ 的 $k+l$ 阶混合中心矩

由以上定义我们可以知道,随机变量的期望是其一阶原点矩,方差是其二阶中心距,协方差是其二阶混合中心矩。

除此之外,另外一个常用的概念是协方差矩阵, 其定义如下:

对于 $n$ 维随机变量 $(X_1,X_2,X_3…,X_n)$ 构成的矩阵

$$C=
\begin{bmatrix}
c_{11} & c_{12} & \cdots & c_{1n} \\
c_{21} & c_{22} & \cdots & c_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
c_{n1} & c_{n2} & \cdots & c_{nn} \\
\end{bmatrix}
$$

其中各个元素为$$c_{ij} = Cov(X_i,X_j) = E((X_i - E[X_i])(X_j - E[X_j])),i,j=1,2,3..n$$

则称矩阵 $C$ 为协方差矩阵,由于$c_{ij} = c_{ji}$ , 因此上面的矩阵为一个对称矩阵。

协方差矩阵其实是将二维随机变量的协方差一般化后拓展到了 $n$ 维随机变量上的一种表示形式,但是除了作为一种表示形式以外,协方差矩阵还存在着某些性质使得其在多个领域均有应用,如主成成分分析。