«统计学完全教程»笔记:第9章 参数推断

考虑参数化模型,

$$ \mathfrak{F}=\{f(x ; \theta): \theta \in \Theta\} $$

其中 $ \Theta \subset \mathbb{R}^{k} $ 是参数的空间, $ \theta=\left(\theta_{1}, \ldots, \theta_{k}\right) $ 是参数。

参数推理的问题就归结为估计参数 $ \theta $ 的问题。

常见的问题:如何确定生成数据的分布是哪种参数化模型呢 ? 难! 参数 化模型的优势:

  1. 有先验知识可以知道数据近似服从某种参数化模型。如,交通事故发 生的次数近似服从泊松分布。

  2. 参数化模型的推断为理解非参数方法提供了背景知识。 这样, 我们还是要学习参数化模型。

关注参数

人们通常只关注某个函数 $ T(\theta) $ 。例如,如果 $ X \sim N\left(\mu, \sigma^{2}\right) $ 的分布,那么 参数为 $ \theta=(\mu, \sigma) $ 。如果我们的目标是估计 $ \mu $ ,那么 $ \mu=T(\theta) $ 为关注参数(parameter of interest), $ \sigma $ 为冗余参数 (nuisance parameter)。

例题 令 $ X_{1}, \ldots, X_{n} \sim \operatorname{Normal}\left(\mu, \sigma^{2}\right) $ 。参数 $ \theta=(\mu, \sigma) $, 参数空间为 $ \Theta=\{(\mu, \sigma): \mu \in \mathbb{R}, \sigma>0\} $ 。假设 $ X_{i} $ 是血液检测的输出, 我们对于参数 $ \tau $ 感兴趣,也就是测试评分超过 1 的人数的比例。令 $ Z $ 表示标准正态分 布随机变量,那么,

$$ \begin{aligned} \tau &=\mathbb{P}(X>1)=1-\mathbb{P}(X<1)=1-\mathbb{P}\left(\dfrac{X-\mu}{\sigma}<\dfrac{1-\mu}{\sigma}\right) \\ &=1-\mathbb{P}\left(Z<\dfrac{1-\mu}{\sigma}\right)=1-\Phi\left(\dfrac{1-\mu}{\sigma}\right) \end{aligned} $$

感兴趣参数是 $ \tau=T(\mu, \sigma)=1-\Phi((1-\mu) / \sigma) $ 。

例题 如果 $ X $ 服从 $ \operatorname{Gamma}(\alpha, \beta) $ 的分布, 如果满足

$$ f(x ; \alpha, \beta)=\dfrac{1}{\beta^{\alpha} \Gamma(\alpha)} x^{\alpha-1} e^{-x / \beta}, \quad x>0 $$

其中, $ \alpha, \beta>0 $ 并且

$$ \Gamma(\alpha)=\int_{0}^{\infty} y^{\alpha-1} e^{-y} d y $$

为 Gamma 函数。参数是 $ \theta=(\alpha, \beta) $ 。Gamma 分布有时用于建模人、动 物、或者电子设备的寿命。假定我们估计平均寿命, 则

$$ T(\alpha, \beta)=\mathbb{E}_{\theta}\left(X_{1}\right)=\alpha \beta $$

矩估计

  • 第一种用于参数估计的方法称为矩方法。我们将会看到,这些估计 器的并不是最优的, 但是他们却容易计算。这些方法得到的结果对 于需要迭代数值计算的方法是很好的初始值。

  • 假定我们有参数 $ \theta=\left(\theta_{1}, \ldots, \theta_{k}\right) $ 包括 $ k $ 个成分。对于 $ 1 \leq j \leq k $, 定义 $j$ 阶矩 (Moment) 为

$$ \alpha_{j} \equiv \alpha_{j}(\theta)=\mathbb{E}_{\theta}\left(X^{j}\right)=\int x^{j} d F_{\theta}(x) $$
  • 同时, 定义第 $ j $ 阶样本矩 (Sample Moment) 为
$$ \widehat{\alpha}_{j}=\dfrac{1}{n} \sum_{i=1}^{n} X_{i}^{j} $$

定义 矩估计器 $ \hat{\theta}_{n} $ 定义为满足

$$ \begin{array}{c} \alpha_{1}\left(\widehat{\theta}_{n}\right)=\widehat{\alpha}_{1} \\ \alpha_{2}\left(\widehat{\theta}_{n}\right)=\widehat{\alpha}_{2} \\ :: \\ \alpha_{k}\left(\widehat{\theta}_{n}\right)=\widehat{\alpha}_{k} \end{array} $$

的 $ \theta $ 值。以上公式定义了关于 $ k $ 个末知数的 $ k $ 个方程。

总体的各阶中心矩的矩估计就是样本各阶中心矩。

例题 假设 $ X_{1}, \ldots, X_{n} \sim \operatorname{Bernoulli}(p) $ 。那么 $ \alpha_{1}=\mathbb{E}_{p}(X)=p $ 并且 $ \widehat{\alpha}_{1}=n^{-1} \sum_{i=1}^{n} X_{i} $ 。令他们相等, 得到

$$ \widehat{p}_{n}=\dfrac{1}{n} \sum_{i=1}^{n} X_{i} $$

矩估计定理

假设 $ \widehat{\theta}_{n} $ 表示矩估计器。在关于模型正确的条件下, 下面的陈述成立:

  1. 估计器 $ \hat{\theta}_{n} $ 存在的概率趋近于 1 。

  2. 这个估计器是一致估计, 即 $ \widehat{\theta}_{n} \stackrel{\mathrm{P}}{\longrightarrow} \theta $ 。

  3. 这个估计是渐进正态的,即

$$ \sqrt{n}\left(\widehat{\theta}_{n}-\theta\right) \rightsquigarrow N(0, \Sigma) $$

其中

$$ \Sigma=g \mathbb{E}_{\theta}\left(Y Y^{T}\right) g^{T} $$

并且,

$$ Y=\left(X, X^{2}, \ldots, X^{k}\right)^{T}, g=\left(g_{1}, \ldots, g_{k}\right), g_{j}=\partial \alpha_{j}^{-1}(\theta) / \partial \theta $$

定理中的第三个陈述可以用于寻找标准误差和置信区间。但是,可以采 用更为简单的 Bootstrap 方式。

极大似然估计

参数化模型中最为常用的估计参数的方法是极大似然估计法。假定 $ X_{1}, \ldots, X_{n} $ 是独立同分布具有概率密度函数为 $ f(x ; \theta) $ 。 似然函数定义为

$$ \mathcal{L}_{n}(\theta)=\prod_{i=1}^{n} f\left(X_{i} ; \theta\right) $$

对数似然函数定义为 $ \ell_{n}(\theta)=\log \mathcal{L}_{n}(\theta) $ 。 似然函数仅仅是数据的联合密度函数,只是把它看作是关于参数 $ \theta $ 的函 数。这样, $ \mathcal{L}_{n}: \Theta \rightarrow[0, \infty) $ 。似然函数并不是密度函数。一般而言,并 不能保证似然函数 $ \mathcal{L}_{n}(\theta) $ 关于 $ \theta $ 的积分为 1 。

定义: 极大似然估计器 (MLE), 表示为 $ \widehat{\theta}_{n} $ 是使得似然函数最大的 $ \theta $ 的 值。 对数似然函数和似然函数在同一点取得最大值。因此, 最大化对数似然 函数产生最大化似然函数相同的结果。但通常我们最大化对数似然函数 更为简单。 注释: 如果在似然函数 $ \mathcal{L}_{n}(\theta) $ 上乘以正常数 $ c $ (与 $ \theta $ 无关),这不会改变 极大似然估计器的结果。因此,我们通常要丟弃似然函数中的正常数。

假定 $ X_{1}, \ldots, X_{n} \sim $ Bernoulli $ (p) $ 。概率函数 $ f(x ; p)=p^{x}(1-p)^{1-x} $ 对于 $ x=0,1 $ 。其中 $ p $ 为末知参数。那么,

$$ \mathcal{L}_{n}(p)=\prod_{i=1}^{n} f\left(X_{i} ; p\right)=\prod_{i=1}^{n} p^{X_{i}}(1-p)^{1-X_{i}}=p^{S}(1-p)^{n-S} $$

其中, $ S=\sum_{i} X_{i} $ 。因此,

$$ \ell_{n}(p)=S \log p+(n-S) \log (1-p) $$

对对数似然函数求导数,设其为 0 ,就可以得到 MLE 的结果 $ \widehat{p}_{n}=S / n $ 。 如图。

image_up_163915010364d60765.jpg

假设随机变量 $ X_{1}, \ldots, X_{n} \sim N\left(\mu, \sigma^{2}\right) $ 。参数 $ \theta=(\mu, \sigma) $, 并且似然函数 (忽略常数项) 是:

$$ \begin{aligned} \mathcal{L}_{n}(\mu, \sigma) &=\prod_{i} \dfrac{1}{\sigma} \exp \left\{-\dfrac{1}{2 \sigma^{2}}\left(X_{i}-\mu\right)^{2}\right\} \\ &=\sigma^{-n} \exp \left\{-\dfrac{1}{2 \sigma^{2}} \sum_{i}\left(X_{i}-\mu\right)^{2}\right\} \\ &=\sigma^{-n} \exp \left\{-\dfrac{n S^{2}}{2 \sigma^{2}}\right\} \exp \left\{-\dfrac{n(\bar{X}-\mu)^{2}}{2 \sigma^{2}}\right\} \end{aligned} $$

其中 $ \bar{X}=n^{-1} \sum_{i} X_{i} $ 为样本均值,样本方差 $ S^{2}=n^{-1} \sum_{i}\left(X_{i}-\bar{X}\right)^{2} $ 。 上式中,利用 $ \sum_{i}\left(X_{i}-\mu\right)^{2}=n S^{2}+n(\bar{X}-\mu)^{2} $ ,可以通过 $ \sum_{i}\left(X_{i}-\mu\right)^{2}=\sum_{i}\left(X_{i}-\bar{X}+\bar{X}-\mu\right)^{2} $ , 随后将平方项展开。

对数似然函数为

$$ \ell(\mu, \sigma)=-n \log \sigma-\dfrac{n S^{2}}{2 \sigma^{2}}-\dfrac{n(\bar{X}-\mu)^{2}}{2 \sigma^{2}} $$

求解方程

$$ \dfrac{\partial \ell(\mu, \sigma)}{\partial \mu}=0 \quad \text { and } \quad \dfrac{\partial \ell(\mu, \sigma)}{\partial \sigma}=0 $$

可以得到, $ \hat{\mu}=\bar{X}, \widehat{\sigma}=S $ 。可以证明他们是全局极大似然值。

再例

假定 $ X_{1}, \ldots, X_{n} \sim U n i f(0, \theta) $ 。这样, 概率密度函数

$$ f(x ; \theta)=\left\{\begin{array}{lr} 1 / \theta & 0 \leq x \leq \theta \\ 0 & \text { otherwise } \end{array}\right. $$

考虑 $ \theta $ 一个固定的值,假设 $ \theta\theta $ ,那 么 $ \mathcal{L}_{n}(\theta)=0 $ 。因而, 如果 $ \theta

再考虑 $ \theta \geq X_{(n)} $ 。对于每个 $ X_{i} $, 那么我们有 $ f\left(X_{i} ; \theta\right)=1 / \theta $, 这样 $ \mathcal{L}_{n}(\theta)=\prod_{i} f\left(X_{i} ; \theta\right)=\theta^{-n} $ 。总之,

$$ \mathcal{L}_{n}(\theta)=\left\{\begin{array}{ll} \left(\dfrac{1}{\theta}\right)^{n} & \theta \geq X_{(n)} \\ 0 & \theta 这样, $ \mathcal{L}_{n}(\theta) $ 是严格递减的在区间 $ \left[X_{(n)}, \infty\right) $ 。因此, $ \widehat{\theta}_{n}=X_{(n)} $ 。

image_up_16391501715ed5b992.jpg

image_up_16391501805050014a.jpg

极大似然估计的性质

  • 一致性

  • 等变性

  • 渐近正态性

  • 最优性

在某些条件下, 极大似然估计器具有良好的性质, 这也是它具有吸引力 的原因。这些性质包括:

  1. 极大似然估计是一致估计 (consistent), $ \widehat{\theta}_{n} \longrightarrow{P}{\longrightarrow} \theta_{\star} $, 其中 $ \theta_{*} $ 表示参数 的真实值。

  2. 极大似然估计是同变估计 (equivariant), 如果 $ \widehat{\theta}_{n} $ 是 $ \theta $ 极大似然估计, 则 $ g\left(\widehat{\theta}_{n}\right) $ 就是 $ g(\theta) $ 的极大似然估计。

  3. 极大似然估计是渐进状态 (asympotically Normal) 的, $ \left(\hat{\theta}-\theta_{\star}\right) / \widehat{\mathrm{se}} \rightsquigarrow N(0,1) $, 同样, 估计的标准差 $ \widehat{S e} $ 可以分析求解得到。

  4. 极大似然估计是渐进最优的、有效的。这意味着,在所有表现正常的 估计器中, 极大似然估计的方差最小, 至少在大样本情形下成立。

  5. 极大似然估计是渐进的 Bayes 估计器。 注意: 并不是 MLE 总是最好的, 在一般情形下, 是最好的。如果模型 满足某些正则条件 (regularity conditions)。这些是函数 $ f(x ; \theta) $ 满足平滑 性 (smoothness) 的基本条件。

一致性意味着 MLE 依概率收敛至真实值。 如果 $ f $ 和 $ g $ 是概率密度函数。定义两个密度函数之间的 $ \mathrm{KL} $ 距离为,

$$ D(f, g)=\int f(x) \log \left(\dfrac{f(x)}{g(x)}\right) d x $$

对于任意的参数 $ \theta, \psi \in \Theta $ ,如果记 $ D(\theta, \psi) $ ,就意味着 $ D(f(x ; \theta), f(x ; \psi)) $ 。 我们定义模型 $ \mathfrak{F} $ 是可以辨识的 (Indentifiable), 如果 $ \theta \neq \psi $, 意味着 $ D(\theta, \psi)>0 $ 。也就是,不同的参数值对应于不同的分布函数。现在,假 定模型是可辨识的。

假定 $ \theta_{*} $ 表示参数 $ \theta $ 的真实值。最大化对数似然函数 $ \ell_{n}(\theta) $, 等价于最大 化

$$ M_{n}(\theta)=\dfrac{1}{n} \sum_{i} \log \dfrac{f\left(X_{i} ; \theta\right)}{f\left(X_{i} ; \theta_{\star}\right)} $$

由于 $ M_{n}(\theta)=n^{-1}\left(\ell_{n}(\theta)-\ell_{n}\left(\theta_{\star}\right)\right) $ ,并且 $ \ell_{n}\left(\theta_{\star}\right) $ 是常数(关于 $ \theta $ )。由大 数定律, $ M_{n}(\theta) $ 将收敛于

$$ \begin{aligned} \mathbb{E}_{\theta_{\star}}\left(\log \dfrac{f\left(X_{i} ; \theta\right)}{f\left(X_{i} ; \theta_{\star}\right)}\right) &=\int \log \left(\dfrac{f(x ; \theta)}{f\left(x ; \theta_{\star}\right)}\right) f\left(x ; \theta_{\star}\right) d x \\ &=-\int \log \left(\dfrac{f\left(x ; \theta_{\star}\right)}{f(x ; \theta)}\right) f\left(x ; \theta_{\star}\right) d x \\ &=-D\left(\theta_{\star}, \theta\right) \end{aligned} $$

因此, $ M_{n}(\theta) \approx-D\left(\theta_{\star}, \theta\right) $, 在 $ \theta_{\star} $ 时取得最大值。考虑 $ \mathrm{KL} $ 的非负性。 因此, 我们期望最大化参数趋近于 $ \theta_{\star} $ 。我们需要证明这个收敛是一致 的。同时,还需要证明这个函数 $ D\left(\theta_{\star}, \theta\right) $ 是良性的。

$ 9.13 $ 定理 假定 $ \theta_{*} $ 表示参数 $ \theta $ 的真实值。定义

$$ M_{n}(\theta)=\dfrac{1}{n} \sum_{i} \log \dfrac{f\left(X_{i} ; \theta\right)}{f\left(X_{i} ; \theta_{\star}\right)} $$

并且, $ M(\theta)=-D\left(\theta_{\star}, \theta\right) $ 。假设

$$ \sup _{\theta \in \Theta}\left|M_{n}(\theta)-M(\theta)\right| \stackrel{\mathrm{P}}{\longrightarrow} 0 $$

对于任意 $ \epsilon>0 $,

$$ \sup _{\theta:\left|\theta-\theta_{\star}\right| \geq \epsilon} M(\theta) 如果假定 $ \hat{\theta}_{n} $ 为极大似然估计, 那么 $ \widehat{\theta}_{n} \stackrel{P}{\longrightarrow} \theta_{\star} $ 。

$ 9.14 $ 定理 假定 $ \tau=g(\theta) $ 是关于 $ \theta $ 的函数。假定 $ \widehat{\theta}_{n} $ 是参数 $ \theta $ 的极大似然估计。那 么, $ \widehat{\tau}_{n}=g\left(\widehat{\theta}_{n}\right) $ 就是 $ \tau $ 的极大似然估计。 证明: 假定 $ h=g^{-1} $ 表示 $ g $ 的反函数。那么, $ \widehat{\theta}_{n}=h\left(\widehat{\tau}_{n}\right) $ ,对于任意 $ \tau $ , 似然函数 $ \mathcal{L}(\tau)=\prod_{i} f\left(x_{i} ; h(\tau)\right)=\prod_{i} f\left(x_{i} ; \theta\right)=\mathcal{L}(\theta) $ , 其中 $ \theta=h(\tau) $ 。因 此,对于任意 $ \tau , \mathcal{L}_{n}(\tau)=\mathcal{L}(\theta) \leq \mathcal{L}(\widehat{\theta})=\mathcal{L}_{n}(\widehat{\tau}) $ 。

$ 9.15 $ 例题 假设 $ X_{1}, \ldots, X_{n} \sim N(\theta, 1) $ ,对于参数 $ \theta $ 的极大似然估计 $ \widehat{\theta}_{n}=\bar{X}_{n} $ 。假定 $ \tau=e^{\theta} $ ,那么,参数 $ \tau $ 的极大似然估计 $ \widehat{\tau}=e^{\widehat{\theta}}=e^{\bar{x}} $ 。

$ 9.16 $ 定义 评分函数定义如下,

$$ s(X ; \theta)=\dfrac{\partial \log f(X ; \theta)}{\partial \theta} $$

Fisher 信息量定义为

$$ \begin{aligned} I_{n}(\theta) &=\mathbb{V}_{\theta}\left(\sum_{i=1}^{n} s\left(X_{i} ; \theta\right)\right) \\ &=\sum_{i=1}^{n} \mathbb{V}_{\theta}\left(s\left(X_{i} ; \theta\right)\right) \end{aligned} $$

对于 $ n=1 $ 时,我们更倾向于记为 $ I(\theta) $, 而不是 $ I_{1}(\theta) $ 。可以证明, $ \mathbb{E}_{\theta}(s(X ; \theta))=0 $ 。这样,我们可以得到, $ \mathbb{V}_{\theta}(s(X ; \theta))=\mathbb{E}_{\theta}\left(s^{2}(X ; \theta)\right) $ 。事 实上, 我们可以进一步简化 $ I_{n}(\theta) $ 。

$ 9.17 $ 定理 $ I_{n}(\theta)=n I(\theta) $, 同时

$$ \begin{aligned} I(\theta) &=-\mathbb{E}_{\theta}\left(\dfrac{\partial^{2} \log f(X ; \theta)}{\partial \theta^{2}}\right) \\ &=-\int\left(\dfrac{\partial^{2} \log f(x ; \theta)}{\partial \theta^{2}}\right) f(x ; \theta) d x \end{aligned} $$

$ 9.18 $ 定理 (极大似然估计的渐进正态性) 假设 se $ =\sqrt{\mathbb{V}\left(\widehat{\theta}_{n}\right)} $ ,在适当的正则条件下,有下列等式成立:

  1. se $ \approx \sqrt{1 / I_{n}(\theta)} $, 且
$$ \dfrac{\left(\widehat{\theta}_{n}-\theta\right)}{\text { se }} \leadsto N(0,1) $$
  1. 令 $ \widehat{\mathrm{se}}=\sqrt{1 / I_{n}\left(\widehat{\theta}_{n}\right)} $, 则
$$ \dfrac{\left(\widehat{\theta}_{n}-\theta\right)}{\widehat{\mathrm{se}}} \leadsto N(0,1) $$

第一个陈述表明, $ \widehat{\theta}_{n} \approx N(\theta, \mathrm{se}) $, 其中 $ \widehat{\theta}_{n} $ 的渐进标准差为 se $ =\sqrt{1 / I_{n}(\theta)} $ 。 第二个陈述表明,即便我们用估计标准差 $ \widehat{\mathrm{e}}=\sqrt{1 / I_{n}\left(\widehat{\theta}_{n}\right)} $ 替代标准差, 第一个陈述依然成立。 这样, 我们就可以说明极大似然估计的分布可以用 $ N\left(\theta, \widehat{\mathrm{se}}^{2}\right) $ 渐进估计。 基于以上事实,我们可以构建一个渐进的置信区间。

$ 9.19 $ 定理 令

$$ C_{n}=\left(\widehat{\theta}_{n}-z_{\alpha / 2} \widehat{\mathrm{se}}, \widehat{\theta}_{n}+z_{\alpha / 2} \widehat{\mathrm{se}}\right) $$

那么, $ \mathbb{P}_{\theta}\left(\theta \in C_{n}\right) \rightarrow 1-\alpha $ ,当 $ n \rightarrow \infty $ 。 证明: 假定 $ Z $ 表示服从标准正态分布的随机变量。那么,

$$ \begin{aligned} \mathbb{P}_{\theta}\left(\theta \in C_{n}\right) &=\mathbb{P}_{\theta}\left(\widehat{\theta}_{n}-z_{\alpha / 2} \widehat{\mathrm{e}} \leq \theta \leq \widehat{\theta}_{n}+z_{\alpha / 2} \widehat{\mathrm{se}}\right) \\ &=\mathbb{P}_{\theta}\left(-z_{\alpha / 2} \leq \dfrac{\widehat{\theta}_{n}-\theta}{\widehat{\mathrm{se}}} \leq z_{\alpha / 2}\right) \\ & \rightarrow \mathbb{P}\left(-z_{\alpha / 2} 对于 $ \alpha=.05 , z_{\alpha / 2}=1.96 \approx 2 $, 因此.

$$ \widehat{\theta}_{n} \pm 2 \widehat{\mathrm{se}} $$

是渐进的 $ 95 \% $ 的置信区间。

$ 9.20 $ 例题 假定 $ X_{1}, \ldots, X_{n} \sim $ Bernoulli $ (p) $ 。极大似然估计是 $ \widehat{p}_{n}=\sum_{i} X_{i} / n $, 并且, $ f(x ; p)=p^{x}(1-p)^{1-x} $, $ \log f(x ; p)=x \log p+(1-x) \log (1-p) $,

$$ s(X ; p)=\dfrac{X}{p}-\dfrac{1-X}{1-p} $$

并且,

$$ -s^{\prime}(X ; p)=\dfrac{X}{p^{2}}+\dfrac{1-X}{(1-p)^{2}} $$

这样,

$$ I(p)=\mathbb{E}_{p}\left(-s^{\prime}(X ; p)\right)=\dfrac{p}{p^{2}}+\dfrac{(1-p)}{(1-p)^{2}}=\dfrac{1}{p(1-p)} $$

因此,

$$ \widehat{\mathrm{se}}=\dfrac{1}{\sqrt{I_{n}\left(\widehat{p}_{n}\right)}}=\dfrac{1}{\sqrt{n l\left(\hat{p}_{n}\right)}}=\left\{\dfrac{\widehat{p}(1-\widehat{p})}{n}\right\}^{1 / 2} $$

一个 $ 95 \% $ 的渐进置信区间为

$$ \widehat{p}_{n} \pm 2\left\{\dfrac{\widehat{p}_{n}\left(1-\widehat{p}_{n}\right)}{n}\right\}^{1 / 2} $$

$ 9.21 $ 例题 令 $ X_{1}, \ldots, X_{n} \sim N\left(\theta, \sigma^{2}\right) $, 其中 $ \sigma^{2} $ 已知。评分函数 $ s(X ; \theta)=(X-\theta) / \sigma^{2} $ 并且 $ s^{\prime}(X ; \theta)=-1 / \sigma^{2} $ ,因此 $ I_{1}(\theta)=1 / \sigma^{2} $ 。极大似 然估计是 $ \widehat{\theta}_{n}=\bar{X}_{n} $ 。根据 $ 9.18 $ 定理, $ \bar{X}_{n} \approx N\left(\theta, \sigma^{2} / n\right) $ 。这种情况下,正 态渐进就是完全精确的。

$ 9.22 $ 例题 假定 $ X_{1}, \ldots, X_{n} \sim $ Poisson $ (\lambda) $ 。那么, $ \widehat{\lambda}_{n}=\bar{X}_{n} $ 。计算可以得到 $ I_{1}(\lambda)=1 / \lambda $, 因此,

$$ \widehat{\mathrm{se}}=\dfrac{1}{\sqrt{n l}\left(\widehat{\lambda}_{n}\right)}=\sqrt{\dfrac{\widehat{\lambda}_{n}}{n}} $$

因此, $ \lambda $ 的 $ 1-\alpha $ 渐进置信区间为 $ \widehat{\lambda}_{n} \pm z_{\alpha / 2} \sqrt{\hat{\lambda}_{n} / n} $ 。

假设 $ X_{1}, \ldots, X_{n} \sim N\left(\theta, \sigma^{2}\right) $ 。极大似然估计是 $ \widehat{\theta}_{n}=\bar{X}_{n} $ 。另一个合理的 参数 $ \theta $ 的估计是样本中值 $ \widetilde{\theta}_{n} $ 。极大似然估计满足

$$ \sqrt{n}\left(\widehat{\theta}_{n}-\theta\right) \leadsto N\left(0, \sigma^{2}\right) $$

中值估计满足

$$ \sqrt{n}\left(\widetilde{\theta}_{n}-\theta\right) \rightsquigarrow N\left(0, \sigma^{2} \dfrac{\pi}{2}\right) $$

这表明,中值估计收敛于正确的值,但是它的方差比极大似然估计的方 差大。

更一般的, 考虑两个估计量 $ T_{n} $ 和 $ U_{n} $, 并且假定

$$ \sqrt{n}\left(T_{n}-\theta\right) \rightsquigarrow N\left(0, t^{2}\right) $$

并且

$$ \sqrt{n}\left(U_{n}-\theta\right) \rightsquigarrow N\left(0, u^{2}\right) $$

我们定义 $ U $ 相对于 $ T $ 的渐进相对效率为 $ \operatorname{ARE}(U, T)=t^{2} / u^{2} $ 。 在正态估计例题中, $ \operatorname{ARE}\left(\tilde{\theta}_{n}, \widehat{\theta}_{n}\right)=2 / \pi=.63 $ 。对于这个结果的理解 是, 如果使用中值, 只是有效地使用了其中一部分数据。

$ 9.23 $ 定理 如果 $ \widehat{\theta}_{n} $ 是极大似然估计, $ \tilde{\theta}_{n} $ 是其他任意估计,则

$$ \operatorname{ARE}\left(\tilde{\theta}_{n}, \hat{\theta}_{n}\right) \leq 1 $$

因此,极大似然估计具有最小渐进方差,称极大似然估计是有效的、渐 进最优的。 这个结论是基于模型正确的假设。如果模型假设本身有误,极大似然估 计就不再是最优的。

Delta 方法

令 $ \tau=g(\theta) $ ,其中 $ g $ 是一个平滑函数。 $ \tau $ 的极大似然估计 $ \widehat{\tau}=g(\widehat{\theta}) $ 。现 在,需要考虑的问题是: $ \widehat{\tau} $ 的分布是什么?

$ 9.24 $ 定理 Delta 方法 如果 $ \tau=g(\theta) $ , 其中, $ g $ 是可微的,且 $ g^{\prime}(\theta) \neq 0 $ , 则

$$ \overbrace{\dfrac{\left(\widehat{\tau}_{n}-\tau\right)}{\operatorname{Se}(\widehat{\tau})}} \rightsquigarrow N(0,1) $$

其中, $ \widehat{\tau}_{n}=g\left(\widehat{\theta}_{n}\right) $, 并且,

$$ \widehat{\operatorname{se}}\left(\widehat{\tau}_{n}\right)=\left|g^{\prime}(\widehat{\theta})\right| \widehat{\operatorname{se}\left(\widehat{\theta}_{n}\right)} $$

因此, 如果

$$ C_{n}=\left(\widehat{\tau}_{n}-z_{\alpha / 2} \widehat{\operatorname{se}\left(\widehat{\tau}_{n}\right)}, \widehat{\tau}_{n}+z_{\alpha / 2} \widehat{\operatorname{se}\left(\widehat{\tau}_{n}\right)}\right) $$

那么, $ \mathbb{P}_{\theta}\left(\tau \in C_{n}\right) \rightarrow 1-\alpha $ ,当 $ n \rightarrow \infty $ 。

令 $ X_{1}, \ldots, X_{n} \sim $ Bernoulli $ (p) $, 并且令 $ \psi=g(p)=\log (p /(1-p)) $ 。Fisher 信息量为 $ I(p)=1 /(p(1-p)) $, 这样, 极大似然估计 $ \widehat{p}_{n} $ 的标准差为

$$ \widehat{\mathrm{se}}=\sqrt{\dfrac{\widehat{p}_{n}\left(1-\widehat{p}_{n}\right)}{n}} $$

$ \psi $ 的极大似然估计 $ \widehat{\psi}=\log \widehat{p} /(1-\widehat{p}) $, 由于 $ g^{\prime}(p)=1 /(p(1-p)) $, 因而 根据 Delta 方法,

$$ \widehat{\operatorname{se}}\left(\widehat{\psi}_{n}\right)=\left|g^{\prime}\left(\widehat{p}_{n}\right)\right| \widehat{\operatorname{se}}\left(\widehat{p}_{n}\right)=\dfrac{1}{\sqrt{n \hat{p}_{n}\left(1-\widehat{p}_{n}\right)}} $$

一个 $ 95 \% $ 的渐进置信区间为

$$ \widehat{\psi}_{n} \pm \dfrac{2}{\sqrt{n \hat{p}_{n}\left(1-\widehat{p}_{n}\right)}} $$

令随机变量 $ X_{1}, \ldots, X_{n} \sim N\left(\mu, \sigma^{2}\right) $ 服从高斯分布。假定均值 $ \mu $ ,已知方 差 $ \sigma $ 末知。我们想要估计 $ \psi=\log \sigma $ 。对数似然函数 $ \ell(\sigma)=-n \log \sigma-\dfrac{1}{2 \sigma^{2}} \sum_{i}\left(x_{i}-\mu\right)^{2} $ 。求导并设置为 0 ,我们得到

$$ \widehat{\sigma}_{n}=\sqrt{\dfrac{\sum_{i}\left(X_{i}-\mu\right)^{2}}{n}} $$

为得到标准误差我们需要 Fisher 信息量。首先,

$$ \log f(X ; \sigma)=-\log \sigma-\dfrac{(X-\mu)^{2}}{2 \sigma^{2}} $$

进而二阶导数

$$ \dfrac{1}{\sigma^{2}}-\dfrac{3(X-\mu)^{2}}{\sigma^{4}} $$

因此,

$$ l(\sigma)=-\dfrac{1}{\sigma^{2}}+\dfrac{3 \sigma^{2}}{\sigma^{4}}=\dfrac{2}{\sigma^{2}} $$

因此, $ \widehat{\mathrm{se}}=\widehat{\sigma}_{n} / \sqrt{2 n} $ 。假定 $ \psi=g(\sigma)=\log \sigma $ ,那么 $ \widehat{\psi}_{n}=\log \widehat{\sigma}_{n} $ 。由于 $ g^{\prime}=1 / \sigma $,

$$ \widehat{\operatorname{se}}\left(\widehat{\psi}_{n}\right)=\dfrac{1}{\widehat{\sigma}_{n}} \dfrac{\widehat{\sigma}_{n}}{\sqrt{2 n}}=\dfrac{1}{\sqrt{2 n}} $$

这样, 得到一个 $ 95 \% $ 的置信区间是 $ \widehat{\psi}_{n} \pm 2 / \sqrt{2 n} $ 。

以上思想可以很容易扩展到多个参数的情形。假定 $ \theta=\left(\theta_{1}, \ldots, \theta_{k}\right) $ ,其 极大似然估计 $ \widehat{\theta}=\left(\widehat{\theta}_{1}, \ldots, \widehat{\theta}_{k}\right) $ 。令 $ \ell_{n}=\sum_{i=1}^{n} \log f\left(X_{i} ; \theta\right) $,

$$ H_{j j}=\dfrac{\partial^{2} \ell_{n}}{\partial \theta_{j}^{2}} \quad \text { and } \quad H_{j k}=\dfrac{\partial^{2} \ell_{n}}{\partial \theta_{j} \partial \theta_{k}} $$

我们定义 Fisher 信息矩阵

$$ I_{n}(\theta)=-\left[\begin{array}{cccc} \mathbb{E}_{\theta}\left(H_{11}\right) & \mathbb{E}_{\theta}\left(H_{12}\right) & \cdots & \mathbb{E}_{\theta}\left(H_{1 k}\right) \\ \mathbb{E}_{\theta}\left(H_{21}\right) & \mathbb{E}_{\theta}\left(H_{22}\right) & \cdots & \mathbb{E}_{\theta}\left(H_{2 k}\right) \\ \vdots & \vdots & \vdots & \vdots \\ \mathbb{E}_{\theta}\left(H_{k 1}\right) & \mathbb{E}_{\theta}\left(H_{k 2}\right) & \cdots & \mathbb{E}_{\theta}\left(H_{k k}\right) \end{array}\right] $$

令 $ J_{n}(\theta)=I_{n}^{-1}(\theta) $ 为信息矩阵 $ I_{n}(\theta) $ 的逆矩阵。

多参数模型

以上思想可以很容易扩展到多个参数的情形。假定 $ \theta=\left(\theta_{1}, \ldots, \theta_{k}\right) $ , 其 极大似然估计 $ \widehat{\theta}=\left(\hat{\theta}_{1}, \ldots, \hat{\theta}_{k}\right) $ 。令 $ \ell_{n}=\sum_{i=1}^{n} \log f\left(X_{i} ; \theta\right) $ ,

$$ H_{j j}=\dfrac{\partial^{2} \ell_{n}}{\partial \theta_{j}^{2}} \quad \text { and } \quad H_{j k}=\dfrac{\partial^{2} \ell_{n}}{\partial \theta_{j} \partial \theta_{k}} $$

我们定义 Fisher 信息矩阵

$$ I_{n}(\theta)=-\left[\begin{array}{cccc} \mathbb{E}_{\theta}\left(H_{11}\right) & \mathbb{E}_{\theta}\left(H_{12}\right) & \cdots & \mathbb{E}_{\theta}\left(H_{1 k}\right) \\ \mathbb{E}_{\theta}\left(H_{21}\right) & \mathbb{E}_{\theta}\left(H_{22}\right) & \cdots & \mathbb{E}_{\theta}\left(H_{2 k}\right) \\ \vdots & \vdots & \vdots & \vdots \\ \mathbb{E}_{\theta}\left(H_{k 1}\right) & \mathbb{E}_{\theta}\left(H_{k 2}\right) & \cdots & \mathbb{E}_{\theta}\left(H_{k k}\right) \end{array}\right] $$

令 $ J_{n}(\theta)=I_{n}^{-1}(\theta) $ 为信息矩阵 $ I_{n}(\theta) $ 的逆矩阵。

在适当的正则条件下,

$$ (\widehat{\theta}-\theta) \approx N\left(0, J_{n}\right) $$

并且,如果 $ \widehat{\theta}_{j} $ 是估计 $ \widehat{\theta} $ 的第 $ j $ 成分,则

$$ \dfrac{\left(\widehat{\theta}_{j}-\theta_{j}\right)}{\widehat{\mathrm{se}}_{j}} \rightsquigarrow N(0,1) $$

其中, $ \widehat{\mathrm{se}}_{j}^{2}=J_{n}(j, j) $ 为 $ J_{n} $ 的第 $ j $ 个对角元素。 $ \widehat{\theta}_{j} $ 和 $ \widehat{\theta}_{k} $ 的渐进的协方差 为 $ \operatorname{Cov}\left(\widehat{\theta}_{j}, \widehat{\theta}_{k}\right) \approx J_{n}(j, k) $ 。 同样,也有多参数模型的 Delta 方法。令 $ \tau=g\left(\theta_{1}, \ldots, \theta_{k}\right) $ 为一个函数, 令

$$ \nabla g=\left(\begin{array}{c} \dfrac{\partial g}{\partial \theta_{1}} \\ \vdots \\ \dfrac{\partial g}{\partial \theta_{k}} \end{array}\right) $$

(多参数的 Delta 方法) 假定 $ \nabla g $ 在 $ \widehat{\theta} $ 处的值为 0 。如果 $ \widehat{\tau}=g(\widehat{\theta}) $, 则

$$ \dfrac{(\widehat{\tau}-\tau)}{\widehat{\operatorname{se}}(\widehat{\tau})} \leadsto N(0,1) $$

其中,

$$ \widehat{\operatorname{se}}(\widehat{\tau})=\sqrt{(\widehat{\nabla} g)^{T} \widehat{J}_{n}(\widehat{\nabla} g)} $$

其中 $ \widehat{J}_{n}=J_{n}\left(\widehat{\theta}_{n}\right) $, 并且 $ \widehat{\nabla} g $ 是 $ \nabla g $ 在 $ \theta=\widehat{\theta} $ 的估计。

令 $ X_{1}, \ldots, X_{n} \sim N\left(\mu, \sigma^{2}\right) $, 令 $ \tau=g(\mu, \sigma)=\sigma / \mu $ 。如果能够证明 $ ( $ 习题 8)

$$ I_{n}(\mu, \sigma)=\left[\begin{array}{cc} \dfrac{n}{\sigma^{2}} & 0 \\ 0 & \dfrac{2 n}{\sigma^{2}} \end{array}\right] $$

因此,

$$ J_{n}=I_{n}^{-1}(\mu, \sigma)=\dfrac{1}{n}\left[\begin{array}{cc} \sigma^{2} & 0 \\ 0 & \dfrac{\sigma^{2}}{2} \end{array}\right] $$

$ g $ 函数的梯度为

$$ \nabla g=\left(\begin{array}{c} -\dfrac{\sigma}{\mu^{2}} \\ \dfrac{1}{\mu} \end{array}\right) $$

这样,

$$ \widehat{\operatorname{se}(\widehat{\tau})}=\sqrt{(\widehat{\nabla} g)^{\top} \widehat{J}(\widehat{\nabla} g)}=\dfrac{1}{\sqrt{n}} \sqrt{\dfrac{1}{\widehat{\mu}^{4}}+\dfrac{\widehat{\sigma}^{2}}{2 \widehat{\mu}^{2}}} $$

对于参数化模型,标准差和置信区间都可以使用 Bootstrap 方法估计。 这里仅仅有一个变化。在非参数的 Bootstrap 方法中,我们从经验分布 $ \widehat{F}_{n} $ 中抽取 $ X_{1}^{_}, \ldots, X_{n}^{_} $ 。而在参数化模型的 Bootstrap 中,我们从参数模 型 $ f\left(x ; \hat{\theta}_{n}\right) $ 中抽样。这里, $ \widehat{\theta}_{n} $ 可以是极大似然估计或矩估计。

考虑 $ 9.29 $ 例题。为了得到 bootstrap 的标准误差, 我们仿真 $ X_{1}, \ldots, X_{n}^{_} \sim N\left(\widehat{\mu}, \widehat{\sigma}^{2}\right) $, 计算 $ \widehat{\mu}^{_}=n^{-1} \sum_{i} X_{i}^{_} $ 和 $ \widehat{\sigma}^{2 _}=n^{-1} \sum_{i}\left(X_{i}^{_}-\widehat{\mu}^{_}\right)^{2} $ 。然后我们计算 $ \widehat{\tau}^{_}=g\left(\widehat{\mu}^{_}, \widehat{\sigma}^{_}\right)=\widehat{\sigma}^{_} / \widehat{\mu}^{_} $ 。重复 $ B $ 次,就产生 Bootstrap 抽样组,

$$ \widehat{\tau}_{1}^{_}, \ldots, \widehat{\tau}_{B}^{*} $$

然后我们估计

$$ \widehat{\text { se boot }}=\sqrt{\dfrac{\sum_{b=1}^{B}\left(\widehat{\tau}_{b}^{*}-\widehat{\tau}\right)^{2}}{B}} $$

我们看到,Bootstrap 方法要比 Delta 方法简单。但另一方面,Delta 方 法给出了标准差估计的封闭解。

检验假设条件

如果假设数据来自某个参数化模型,那么检查这个假设是否成立是一个 很好的想法。一种方法是通过查看数据的分布图,这种方法不够严格。 例如,如果数据的柱状图是双峰分布,显然使用正态分布的假设就存在 问题。一个更为正式的方法是使用拟合优度检测方法 (Goodness-of-fit Test)来检查参数化模型的假设 (10.8 节)。