令 $X_1, \cdots ,X_n \sim F$ 为 IID 样本,其中 $F$ 是在实线上的分布函数。可以用经验分布函数估计 $F$ 。
定义 经验分布函数(empirical distribution function)$\hat {F}_ {n}$ 是指在每一个数据点 $X_{i}$ 上的概率密度为 $\frac {1}{n}$ 的 $\mathrm {CDF}$, 用公式表示为
其中,
“在实线上”,意味着定义域是 $\mathbb {R} $ 分布函数,其实就是 CDF
上面的定义可能不太好理解。结合推导讲讲。
首先,函数的输入值是 $t$ ,表示数量上限。函数值 $\hat {F}_n (t)$ ,表示 样本中,值小于 $t$ 的样本占整体比重的多少。如何得到其解析式呢?很简单:
function F_n(t, X_1, X_2, ..., X_n){
let count = 0;
for (let i = 0; i < X.length; i++) {
if (X_i <= t) {
count++;
}
}
return count / n;
}
所以上述累积分布函数的分子可以理解为一个计数程序。除以总数,得到比例,即分布函数的 t 点取值。
这个累积分布函数的特点是不断阶跃 $\dfrac {1}{n}$ 。
Glivenko-Cantelli 定理. 使 $X_{1}, \ldots, X_{n} \sim F .$ 则
$\stackrel {p}{\longrightarrow}$ 表示 依概率收敛
Dvoretzky-Kiefer-Wolfowitz (DKW) 不等式
使 $X_{1}, \ldots, X_{n} \sim F .$ 则 $\forall \epsilon>0$,
使用 DKW 不等式,可以如下方法构造置信集。
定义,
根据 DKW 不等性,对任何 $F$,
7.2 统计泛函
统计泛函 $T (F)$ 是 F 的任何函数。例如均值和方差:
还有中位数:
$\theta = T (F)$ 的**嵌入估计器(plug-in estimator)**定义为:
若对 $r (x)$ 有 $T (F) = \int_{}^{} r (x) \ \mathrm {d} F (x)$ ,则称 $T$ 为线性泛函。
因为 $T$ 满足
定理 线性泛函 $T (F) = \int_{}^{} r (x)\ \mathrm {d} F (x)$ 的嵌入估计器为
多数情况下,成立
由于 $\mathbb {P}_{\theta}\left (\theta \in C_{n}\right) \rightarrow 1-\alpha$ (上一章)得到 $T (F)$ 的近似 $1-\alpha$ 的置信区间为
称该区间为基于正态的置信区间, 对于 $95 \%$ 的㯰信区间,$z_{\alpha / 2}=z_{0.05 / 2}=$ $1.96 \approx 2$, 所以区间为 $T\left(\hat{F}_{n}\right) \pm 2$ se.
例 (偏度) 令 $\mu$ 和 $\sigma^{2}$ 表示随机变量 $X$ 的均值和方差,偏度定义为
偏度度量了分布的偏离对称的程度, 为求其嵌入估计器,首先记得 $\hat {\mu}=n^{-1} \sum_{i} X_{i}$ 且 $\hat {\sigma}^{2}=n^{-1} \sum_{i}\left (X_{i}-\hat {\mu}\right)^{2}, \kappa$ 的嵌入估计器为