令 $X_1, \cdots ,X_n \sim F$ 为 IID 样本,其中 $F$ 是在实线上的分布函数。可以用经验分布函数估计 $F$ 。

定义 经验分布函数(empirical distribution function)$\hat {F}_ {n}$ 是指在每一个数据点 $X_{i}$ 上的概率密度为 $\frac {1}{n}$ 的 $\mathrm {CDF}$, 用公式表示为

$$ \hat{F}_{n}(x)=\frac{\sum_{i=1}^{n} I\left(X_{i} \leqslant x\right)}{n} $$

其中,

$$ I\left(X_{i} \leqslant x\right)= \begin{cases}1, & X_{i} \leqslant x \\ 0, & X_{i}>x\end{cases} $$

“在实线上”,意味着定义域是 $\mathbb {R} $ 分布函数,其实就是 CDF

上面的定义可能不太好理解。结合推导讲讲。

首先,函数的输入值是 $t$ ,表示数量上限。函数值 $\hat {F}_n (t)$ ,表示 样本中,值小于 $t$ 的样本占整体比重的多少。如何得到其解析式呢?很简单:

function F_n(t, X_1, X_2, ..., X_n){
    let count = 0;
    for (let i = 0; i < X.length; i++) {        
        if (X_i <= t) {
            count++;
        }
    }
    return count / n;
}

所以上述累积分布函数的分子可以理解为一个计数程序。除以总数,得到比例,即分布函数的 t 点取值。

这个累积分布函数的特点是不断阶跃 $\dfrac {1}{n}$ 。

Glivenko-Cantelli 定理. 使 $X_{1}, \ldots, X_{n} \sim F .$ 则

$$ \sup _{x}\left|\widehat{F}_{n}(x)-F(x)\right| \stackrel{\mathrm{P}}{\longrightarrow} 0 $$

$\stackrel {p}{\longrightarrow}$ 表示 依概率收敛

Dvoretzky-Kiefer-Wolfowitz (DKW) 不等式

使 $X_{1}, \ldots, X_{n} \sim F .$ 则 $\forall \epsilon>0$,

$$ \mathbb{P}\left(\sup _{x}\left|F(x)-\widehat{F}_{n}(x)\right|>\epsilon\right) \leq 2 e^{-2 n \epsilon^{2}} . $$

使用 DKW 不等式,可以如下方法构造置信集。

定义,

$$ \begin{aligned} L(x) &=\max \left\{\widehat{F}_{n}(x)-\epsilon_{n}, 0\right\} \\ U(x) &=\min \left\{\widehat{F}_{n}(x)+\epsilon_{n}, 1\right\} \\ \text { where } \epsilon_{n} &=\sqrt{\frac{1}{2 n} \log \left(\frac{2}{\alpha}\right)} \end{aligned} $$

根据 DKW 不等性,对任何 $F$,

$$ \mathbb{P}(L(x) \leq F(x) \leq U(x) \text { for all } x) \geq 1-\alpha . $$

7.2 统计泛函

统计泛函 $T (F)$ 是 F 的任何函数。例如均值和方差:

$$ \mu = \int_{}^{} x\ \mathrm{d} F(x) $$
$$ \sigma ^2 = \int_{}^{} ( x - \mu ) ^{2} \mathrm{d}F(x) $$

还有中位数:

$$ m = \forall ^{-1} (1 / 2) $$

$\theta = T (F)$ 的**嵌入估计器(plug-in estimator)**定义为:

$$ \hat{\theta }_n = T(\hat{F}_n) $$

若对 $r (x)$ 有 $T (F) = \int_{}^{} r (x) \ \mathrm {d} F (x)$ ,则称 $T$ 为线性泛函。

因为 $T$ 满足

$$ T(aF+bG) = aT(F) + bT(G) $$

定理 线性泛函 $T (F) = \int_{}^{} r (x)\ \mathrm {d} F (x)$ 的嵌入估计器为

$$ T(\hat{F}_n) = \int_{}^{} r(x) \mathrm{d} \hat{F}_n(x) = \dfrac{1}{n} \sum_{i = 1}^{n} r(X_i) $$

多数情况下,成立

$$ T\left(\hat{F}_{n}\right) \approx N\left(T(F), \hat{\mathrm{se}}^{2}\right) $$

由于 $\mathbb {P}_{\theta}\left (\theta \in C_{n}\right) \rightarrow 1-\alpha$ (上一章)得到 $T (F)$ 的近似 $1-\alpha$ 的置信区间为

$$ T\left(\hat{F}_{n}\right) \pm z_{\alpha / 2} \hat{\text { se }} $$

称该区间为基于正态的置信区间, 对于 $95 \%$ 的㯰信区间,$z_{\alpha / 2}=z_{0.05 / 2}=$ $1.96 \approx 2$, 所以区间为 $T\left(\hat{F}_{n}\right) \pm 2$ se.

例 (偏度) 令 $\mu$ 和 $\sigma^{2}$ 表示随机变量 $X$ 的均值和方差,偏度定义为

$$ \kappa=\frac{\mathbb{E}(X-\mu)^{3}}{\sigma^{3}}=\frac{\int(x-\mu)^{3} \mathrm{~d} F(x)}{\left[\int(x-\mu)^{2} \mathrm{~d} F(x)\right]^{3 / 2}} . $$

偏度度量了分布的偏离对称的程度, 为求其嵌入估计器,首先记得 $\hat {\mu}=n^{-1} \sum_{i} X_{i}$ 且 $\hat {\sigma}^{2}=n^{-1} \sum_{i}\left (X_{i}-\hat {\mu}\right)^{2}, \kappa$ 的嵌入估计器为

$$ \hat{\kappa}=\frac{\int(x-\mu)^{3} \mathrm{~d} \hat{F}_{n}(x)}{\left[\int(x-\mu)^{2} \mathrm{~d} \hat{F}_{n}(x)\right]^{3 / 2}}=\frac{1 / n \sum_{i}\left(X_{i}-\hat{\mu}\right)^{3}}{\hat{\sigma}^{3}} . $$