什么是极大似然估计

极大似然估计是求怎样的参数可使观测值发生概率最大

后面的一切都是从这个思想展开。

即最优化问题:

$$ \hat{\theta}_{n}=\arg \max _{\theta} p_{X}\left(x_{1}, \cdots, x_{n} ; \theta\right) $$

或(对于连续随机变量)

$$ \hat{\theta}_{n}=\arg \max _{\theta} f_{X}\left(x_{1}, \cdots, x_{n} ; \theta\right) $$

如何运用呢?

通过例子理解

Bernoulli 分布

假设有不均匀硬币,观测向量 $\mathbf {A} = X_1, \cdots ,X_n$($X_i = 1$ 表示正面向上,$X_i = 0$ 表示反面向上 )。显然 $\mathbf {A}$ 发生的概率是是每次投掷事件的概率的乘积。假设正面概率是 $p$ ,则:

$\mathbb{P}(X = \mathbf{A}) = p^k(1 -p)^{n-k}$

我们的目标是求出 $\mathbb {P}(X = \mathbf {A})$ 最大时,参数 $p$ 的值。方便起见,求对数(因为不影响其单调性)

$$ \mathcal{L}_n(p) = \ln ( \mathbb{P}(A) ) = k \ln p + (n-k)\ln (1-p) $$

为了求其极值时 $p$ 的取值,求导(注意 1 - p 求导后符号改变)。

$$ \begin{align} & \mathcal{L}_n'(p) = \dfrac{k}{p} + \dfrac{n-k}{ \color{red}{p-1} } = 0 \\ & \Leftrightarrow -k + kp + np - kp = 0 \\ & \Leftrightarrow p = \dfrac{k}{n} \\ \end{align} $$

而 $k = \sum_{i = 1}^{n} X_i$ (因为 $X_i = 1$ 表示正面向上)

因此极大似然估计为

$$ \hat{\theta }_n = \dfrac{\sum_{i = 1}^{n} X_i}{n} $$

Poisson 分布

令 $ X_{1}, X_{2}, \ldots, X_{n} \sim \operatorname {Poisson}(\lambda) $, 求 $ \lambda $ 的极大似然估计.

解:

我们要求出观测向量 $A = X_1, \cdots ,X_n$ 概率最大时的 $\lambda $,而要使观测向量整体作为一个事件发生,则各个事件 $X_i$ 都要发生。这种我们用乘积表示。

即概率表示为 $\mathbb {P}(A) = \mathbb {P}(X = X_1; \lambda)\mathbb {P}(X = X_2; \lambda) \cdots \mathbb {P}(X = X_n; \lambda)$

而泊松分布的分布列 $P (X = X_i) = \dfrac {\lambda ^{X_i} e ^ {-\lambda}}{X_i !}$

代入并取对数:

$$ \begin{align} \ell _n (\lambda ) &= \sum_{i = 1}^{n} \ln (\dfrac{\lambda ^ {X_i} e ^{-\lambda }}{X_i!}) \\ &=\sum_{}^{} X_i \ln \lambda - \lambda - \ln X_i! \\ \end{align} $$

求个导:

$$ \ell ^\prime (\lambda ) = -n + \sum_{}^{} \dfrac{X_i}{\lambda } $$

令它为 $0$ :

$$ \sum_{}^{} \dfrac{X_i}{\lambda } - \dfrac{1}{X_i!} = 0 $$

解得 $\hat {\lambda} = \bar {X}$