极大似然估计


在统计学中,最大似然估计(英语:Maximum Likelihood Estimation,简作MLE),也称极大似然估计,是用来估计一个概率模型的参数的一种方法。

频率学派 vs 贝叶斯学派

频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同

  • 频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;
  • 贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。

频率学派和贝叶斯学派解决问题的角度不同

  • 频率学派从「自然」角度出发,试图直接为「事件」本身建模,即事件在独立重复试验中发生的频率趋于极限,那么这个极限就是该事件的概率。
  • 贝叶斯学派并不从试图刻画「事件」本身,而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」,或者「世界的本体带有某种随机性」,这套理论根本不言说关于「世界本体」的东西,而只是从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。

概率函数

概率研究的是,已经知道了模型和参数后,给出一个事件发生的概率(频率)。
$$
概率函数:参数 + 观测 –> 结果
$$

如果$θ$ 是已知确定的,$X$ 是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点$X$,其出现概率是多少(表示不同$X$出现的概率)。

概率函数用于在已知一些参数的情况下,预测接下来的观测所得到的结果。

似然函数

统计是根据给出的观测数据,利用这些数据进行建模和参数的预测。(例如推测是一个高斯模型,以及得到该模型的具体的参数 $σ,μ$ 等)。

$$
似然函数: 观测 + 结果 –> 参数
$$

如果$X$ 是已知确定的,$θ$ 是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数$θ$,出现 $x$ 这个样本点的概率是多少(表示不同$θ$下,$X$出现的概率)。此时的函数也记作 $L(θ|x)$ 或 $L(x;θ)$ 或 $f(x;θ)$

似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性(可能性)。就是给定一组观测数据,对有关事物的性质的参数进行估计,即已知具体样本数据,对于模型的参数进行分析预测。

最大似然就是模型参数的最大可能性。

基本思想

最大似然估计是一种“模型已定,参数未知”的方法。即利用已知的样本的结果,在使用某个模型的基础上,反推最有可能导致这样结果的模型参数值。

最大似然估计的思想: 使得观测数据(样本)发生概率最大的参数就是最好的参数。

极大似然估计是典型的频率学派观点,它的基本思想是:待估计参数 $θ$ 是客观存在的,只是未知而已,当 $θ-mle$ 满足 $θ = θ-mle$ 时,该组观测样本 $(X1,X2,…,Xn) = (x1, x2,…,xn)$ 更容易被观测到,我们就说 $[θ-mle]$ 是 $[θ]$ 的极大似然估计值。也即,估计值 $[θ-mle]$ 使得事件发生的可能性最大。

假设分布率为 $P=p(x;θ)$,$x$ 是发生的样本,$θ$ 是代估计的参数,$p(x;θ)$ 表示估计参数为$θ$时,发生$x$的的概率。
那么当我们的样本值为:$x1,x2,…,xn$ 时,

$$L(θ) = L(x1,x2,…,xn;θ) = p(x1|θ) * p(x2|θ) * …p(xn|θ)$$

其中$L(θ)$ 成为样本的似然函数。假设有 $θ^$ 使得 $L(θ)$ 的取值最大,那么 $θ^$ 就叫做参数 $θ$ 的极大似然估计值。

求解过程

求极大似然函数估计值的一般步骤:

  1. 写出似然函数;
  2. 对似然函数取对数,并整理;
  3. 求导数 ;
  4. 求对数似然函数的最大值(求导,解似然方程)。如果似然函数可导,那么就可以通过求导数的方式得到驻点,从而算出极大值。

对一个独立同分布的样本集来说,总体的似然就是每个样本似然的乘积。总体的似然就是每个样本似然的乘积,但是连乘计算起来比较麻烦,为了求解方便,我们通常会将似然函数取对数,从而转成对数似然函数。

贝叶斯方法中的应用

贝叶斯方法思路如下:

  1. 由训练数据学习联合概率分布$P(X, Y)$
    1. 由训练数据学习 $P(X|Y)$ 和 $P(Y)$的估计,从而得到联合概率分布。
      1. 估计$P(X|Y)$时假设条件独立以降低计算困难。因为这个假设,模型需要计算的条件概率的量大大减少,朴素贝叶斯法的学习和训练大为简化。当然同时牺牲了一些分类准确率。
    2. 概率估计可以用极大似然估计或贝叶斯估计。
  2. 然后使用贝叶斯公式求得后验概率分布 $P(Y|X)=\frac{P(X, Y)}{P(X)}$。
  3. 将输入 x 分到后验概率最大的类 y。后验概率最大相当于 0-1 损失函数时的期望风险最小化。

Author: ahmatjan
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint polocy. If reproduced, please indicate source ahmatjan !
  TOC