先验概率,后验概率,共轭分布与共轭先验

本文主要讲述先验概率,后验概率,共轭分布和共轭先验这几个概念。

众所周知,概率论中有两大学派:频率学派和贝叶斯学派。先验概率,后验概率,共轭分布和共轭先验是贝叶斯学派中的几个概念。原因是贝叶斯学派认为分布存在先验分布和后验分布的不同,而频率学派则认为一个事件的概率只有一个

下面先以一个直观的例子来说明先验概率和后验概率的概念

比如说,你来到一个山洞,这个山洞里可能有熊也可能没有熊, 记你觉得山洞有熊的为事件 \(Y\). 然后,你也许听到山洞里传来熊的吼声, 记听到熊吼声为事件 \(X\). 你一开始认为山洞有熊的概率是 \(P(Y)\); 听到熊的吼声之后,你认为有熊的概率是 \(P(Y|X)\)。在这里,\(P(Y)\)就是先验概率,\(P(Y|X)\)是后验概率.

回到概率论中一个经典的例子:抛硬币。抛硬币时抛出正面的概率为多大?假如事前关于这枚硬币没有任何额外信息,那么一般都会认为是 1/2,这时候的 1/2 就是正面朝上的先验概率 。但是在经过一系列实验确认后再得到的正面朝上的概率很可能就不是1/2了(受到到硬币的质地,重量分布等因素的影响),这个概率便是后验概率。

简单理解就是在事件发生之前,根据以往的经验推测的与该事件相关的概率就是先验概率,而在事件(试验)真正发生后,通过事件(试验)的结果可以修正先验概率,从而得到后验概率。

那么对于抛硬币这个事件来说,抛出正面硬币的概率就应该是一个概率的概率,也就是说它的结果不是一个单一的值 1/2,而是一个概率分布,可能有很高的概率是1/2,但是也有一定的概率是100%(比如抛100次结果还真都100次都是正面)。那么在这里这个概率的分布用函数来表示就是一个似然函数,所以似然函数也被称为“分布的分布”。用公式来表示就是:

**后验概率(posterior probability)∝ 似然函数(likelyhood function)*先验概率(prior probability)**

即:

\(P(X|D) ∝ P(μ|D)*P(X)\)

这里 \(D\) 表示一组观测实验(比如我扔了五次硬币得到5次正反面的结果),\(X\) 表示随机变量(在这里是硬币的正反面),表示随机函数里面的参数(在这里就是硬币掷为正面的概率)。

注意这里是正比于而不是等于,这个是理解似然函数的一个关键,右侧直接的乘积其实是不满足概率分布归一化的条件的(就是右侧的积分最后不会等于1)那么这个正比符号怎样才能变成等号呢?其实只要再除以一个系数进行归一化就可以了:

\(P(X|D) =P(μ|D)*P(X)/P(D)\)

这个归一化的系数是怎么来的呢?让我们回忆一下贝叶斯公式:

\(P(X|D)*P(D)=P(XD)\)

\(P(μ|D)=P(D|X)\)(似然函数在计算时的做法就是将D的观察结果代入P(X)的分布式子中去得到的)

于是

\((P(μ|D)/P(D))\*P(X)=P(D|X)\*P(X)/P(D)=P(XD)/P(D)=P(X|D)\)

似然函数的形式是依赖于观测值的,它在贝叶斯学派与频率学派都有很大的作用,不过在两家的用法并不相同。

频率学派认为每个事件的概率是一个客观存在的常数值,只是我们不知道而已。比如抛硬币,在实验估计之前我们不知道它是多少,频率学派也不会管之前大家说抛硬币出现正面的概率是1/2还是多少,所谓“眼见为实,耳听为虚”,他们的最终结论只和在实验中观测到的数据有关系。但是它肯定是一个确定的常数,然后我们通过观察实验,获得一组样本值 \(D\),再将这组样本值代入似然函数 \(P(D|X)\) ,求解使得似然函数最大的值就是估计出来的(当然由于实验的结果不同,这个估计出来的也很可能不是1/2,实验不同得到的结果也不同,但是根据大数定律,理论上实验次数足够多以后,求出来的是会越来越接近真实的概率的)。也就是说频率学派认为答案只有一个,我们不断地通过各种估计法来猜测这个值。

而贝叶斯学派并不会完全拒绝大家之前所说的“硬币扔出正面的概率是1/2”的说法,只是贝叶斯学派认为最终硬币扔出正面反面的概率并不是一个常数值,不是一个有唯一答案的真理,这个值本身应该也是一个随机变量,是在不断变化的一个数值,如何得到这个值,贝叶斯学派认为也需要通过实验在“硬币扔出正面的概率是1/2”的说法(先验概率)的基础上通过实验数据(似然函数)不断去预估这个扔出正面概率的实际分布(后验分布)。

举个例子:假如我扔了5次硬币,先出现了3次正面,后出现了两次反面,那么这时的似然函数就应该是 \(P(μ|D)=P(D|X)=L(μ)=μ\*μ\*μ\*(1-μ)\*(1-μ)\) (\(\mu\) 是硬币抛正面的概率,在似然函数里就相当于概率分布函数里的随机变量一样变成一个随机变化的值了)

如果用我们以前统计课本上的频率学派的最大似然估计法,对\(L(μ)\)求导求最大值,得到 \(μ=3/5\), 那么得出结论就是最后抛硬币为正面的概率就是 3/5,当然还要附上一个参数估计的置信度,表示这个结论自然不是100%准确的

但是如果采用贝叶斯学派的后验概率\(P(X|D) = P(D|X)\*P(X)/P(D)=L(μ)\*P(X)/P(D)\)

其中 \(P(D)\) 可以简单地由古典概型算出来:\(P(D)=1/=1/32=0.03125\)。如果 \(μ\) 取了 3/5,代入上式那么抛硬币为正面的概率就是 0.55296,而不是1/2,当然贝叶斯学派最终得到的后验概率是一个随 \(μ\) 变化的分布,只不过在这种情况这个分布取到 0.55296 这个值的概率最大而已

清楚似然函数、先验概率、后验概率的几个贝叶斯学派的基本概念,要明白共轭分布和共轭先验就很简单了,所谓共轭分布就是先验概率和后验概率具有一样函数形式的分布形式,举个例子就是假如先验分布函数是形如 \(C_1\mu^a (1-\mu)^b\) 的形式(比如二项分布就是这种形式)而后验分布是 \(C_2\mu^m (1-\mu)^n\) 这样的形式,两者只是具体参数值不同,或者先验分布和后验分布都是高斯分布等等的情形就可为认为先验分布和后验分布具有同样的形式。

这种形式不变的好处是,我们能够在先验分布中赋予参数很明确的物理意义,这个物理意义可以延续到后验分布中进行解释,同时从先验变换到后验的过程中从数据中补充的知识也容易有物理解释。同时能够后验分布和先验分布共轭的情况下是可以大大简化计算量。

那么共轭先验又是什么概念呢?因为在现实建模问题中,往往我们先得到和固定的反而是似然函数(其实也很好理解,客观的实验观察数据才是第一手最solid的材料),这时先验函数(可以理解为先验知识或者是对后验分布的一种假设和猜测)是可以选择的。这时如果我选的先验分布最后乘上这个似然函数,使得后验分布与先验分布共轭,那么我们就称这个先验函数为似然函数的共轭先验。基于上面说到的共轭分布的好处,往往选择先验函数时都会让先验概率分布和后验概率分布共轭。

共轭分布与共轭先验 条件概率和后验概率有什么不同?