Math

12/24, 2021

«统计学完全教程»笔记：第4章不等式

$ 4.1 $ 定理 (马尔可夫 (Markov) 不等式) 令 $ X $ 为一非负随机变量, 假设 $ \mathbb{E}(X) $ 存在, 对任意 $ t>0 $ 有 $$ \mathbb{P}(X>t) \leqslant \dfrac{\mathbb{E}(X)}{t} $$ $ 4.2 $ 定理 (切比雪夫 (Chebyshev) 不等式) 令 $ \mu=\mathbb{E}(X), \sigma^{2}=\mathbb{V}(X) $, 则 $$ \mathbb{P}(|X-\mu| \geqslant t) \leqslant \dfrac{\sigma^{2}}{t^{2}}, \quad \mathbb{P}(|Z| \geqslant k) \leqslant \dfrac{1}{k^{2}}, $$ 其中, $ Z=(x-\mu) / \sigma $, 特别地, $ \mathbb{P}(|Z|>2) \leqslant 1 / 4, \mathbb{P}(|Z|>3) \leqslant 1 / 9 $. Read more...

12/24, 2021

«统计学完全教程»笔记：第5章随机变量的收敛

收敛的类型定义令 $ X_{1}, X_{2}, \cdots $, 为随机变量序列, $ X $ 为另一随机变量, 令 $ F_{n} $ 表示 $ X_{n} $ 的 CDF, $ F $ 表示 $ X $ 的 CDF. 依概率收敛如果对任意 $ \varepsilon>0 $, 当 $ n \rightarrow \infty $ 时有 $$ \mathbb{P}\left(\left|X_{n}-X\right|>\varepsilon\right) \rightarrow 0 $$ 则称 $ X_{n} $ 依概率收玫于 $ X $, 记为 $ X_{n} \stackrel{P}{\rightarrow} X $. 依分布收敛如果对 $ F $ 的所有连续的点 $ t $, 有 $$ \lim _{n \rightarrow \infty} F_{n}(t)=F(t), $$ 则称 $ X_{n} $ 依分布收敛于 $ X $, 记为 $ X_{n} \rightsquigarrow X $. Read more...

12/13, 2021

«统计学完全教程»笔记：极大似然估计

什么是极大似然估计极大似然估计是求怎样的参数可使观测值发生概率最大。后面的一切都是从这个思想展开。即最优化问题： $$ \hat{\theta}_{n}=\arg \max _{\theta} p_{X}\left(x_{1}, \cdots, x_{n} ; \theta\right) $$ 或（对于连续随机变量） $$ \hat{\theta}_{n}=\arg \max _{\theta} f_{X}\left(x_{1}, \cdots, x_{n} ; \theta\right) $$ 如何运用呢？通过例子理解 Bernoulli 分布假设有不均匀硬币，观测向量 $\mathbf{A} = X_1, \cdots ,X_n$（$X_i = 1$ 表示正面向上，$X_i = 0$ 表示反面向上）。显然 $\mathbf{A}$ 发生的概率是是每次投掷事件的概率的乘积。假设正面概率是 $p$ ，则： $\mathbb{P}(X = \mathbf{A}) = p^k(1 -p)^{n-k}$ 我们的目标是求出 $\mathbb{P}(X = \mathbf{A})$ 最大时，参数 $p$ 的值。方便起见，求对数（因为不影响其单调性）： $$ \mathcal{L}_n(p) = \ln ( \mathbb{P}(A) ) = k \ln p + (n-k)\ln (1-p) $$ 为了求其极值时 $p$ 的取值，求导（注意 1 - p 求导后符号改变）。 Read more...

12/10, 2021

«统计学完全教程»笔记：第9章参数推断

考虑参数化模型， $$ \mathfrak{F}=\{f(x ; \theta): \theta \in \Theta\} $$ 其中 $ \Theta \subset \mathbb{R}^{k} $ 是参数的空间， $ \theta=\left(\theta_{1}, \ldots, \theta_{k}\right) $ 是参数。参数推理的问题就归结为估计参数 $ \theta $ 的问题。常见的问题：如何确定生成数据的分布是哪种参数化模型呢 ? 难! 参数化模型的优势：有先验知识可以知道数据近似服从某种参数化模型。如，交通事故发生的次数近似服从泊松分布。参数化模型的推断为理解非参数方法提供了背景知识。这样, 我们还是要学习参数化模型。关注参数人们通常只关注某个函数 $ T(\theta) $ 。例如，如果 $ X \sim N\left(\mu, \sigma^{2}\right) $ 的分布，那么参数为 $ \theta=(\mu, \sigma) $ 。如果我们的目标是估计 $ \mu $ ，那么 $ \mu=T(\theta) $ 为关注参数（parameter of interest）, $ \sigma $ 为冗余参数 (nuisance parameter)。 Read more...

12/10, 2021

«统计学完全教程»笔记：第8章 Bootstrap 方法

Booststrap (自助法) 方法是一种估计标准差和计算置信区间的方法。令 $ T_{n}=g\left(X_{1}, \ldots, X_{n}\right) $ 是一个统计量（statistic），也就是说， $ T_{n} $ 是数据的任意函数。假定我们想估计 $ T_{n} $ 的方差 $ \mathbb{V}_{F}\left(T_{n}\right) $ 。例如，如果 $ T_{n}=\bar{X}_{n} $ ，那么 $ \mathbb{V}_{F}\left(T_{n}\right)=\sigma^{2} / n $, 其中 $ \sigma^{2}=\int(x-\mu)^{2} d F(x) $, 且 $ \mu=\int x d F(x) $ 。这样, $ T_{n} $ 的方差是 $ F $ 的函数。使用下标 $ F $ 强调这个方差通常取决于末知的分布函数 $ F $ Bootstrap 的思想包括两个步骤: 步骤 1: 估计 $ \mathbb{V}_{F}\left(T_{n}\right) $ 使用 $ \mathbb{V}_{\widehat{F}_{n}}\left(T_{n}\right) $ 。 Read more...

12/10, 2021

«统计学完全教程»笔记：第7章 CDF 和统计泛函的估计

令 $X_1, \cdots ,X_n \sim F$ 为 IID 样本，其中 $F$ 是在实线上的分布函数。可以用经验分布函数估计 $F$ 。定义经验分布函数（empirical distribution function）$\hat{F}_ {n}$ 是指在每一个数据点 $X_{i}$ 上的概率密度为 $\frac{1}{n}$ 的 $\mathrm{CDF}$, 用公式表示为 $$ \hat{F}_{n}(x)=\frac{\sum_{i=1}^{n} I\left(X_{i} \leqslant x\right)}{n} $$ 其中， $$ I\left(X_{i} \leqslant x\right)= \begin{cases}1, & X_{i} \leqslant x \\ 0, & X_{i}>x\end{cases} $$ “在实线上”，意味着定义域是 $\mathbb{R} $ 分布函数，其实就是 CDF 上面的定义可能不太好理解。结合推导讲讲。首先，函数的输入值是 $t$ ，表示数量上限。函数值 $\hat{F}_n(t)$ ，表示样本中，值小于 $t$ 的样本占整体比重的多少。如何得到其解析式呢？很简单： 1function F_n(t, X_1, X_2, ..., X_n){ 2 let count = 0; 3 for (let i = 0; i < X. Read more...

12/8, 2021

«统计学完全教程»笔记：第6章模型，统计推断与学习

参数与非参数模型

统计推断（Statistical inference），在计算机科学中也称为学习，是利用数据推测其分布的方法。即给定样本 $X_1 , X_2,\cdots , X_n \sim F$ ，推断出 $F$

我们观测到的相关随机变量值 $\mathbf{X} = (X_1 , X_2,\cdots , X_n)$ 称为 观测值、测量值、观测向量（observation）

参数化模型（parametric model）能够通过一组有限参数描述。 非参数化模型：有限参数无法描述。

参数模型的通用形式：

$$ \mathfrak{F} = \left\{ f(x; \theta) : \; \theta \in \Theta \right\} $$

$\theta$ 是一个未知参数，其可以在 参数空间（parameter space） $\Theta$ 中取值.
若 $\theta $ 是向量，则其中我们不关心的分量称为 冗余参数。

若有分布 $X_1, \cdots ,X_n \sim F$ ，则任何 $F$ 的函数称为 统计泛函

假设我们有数据对 $ ( X_1, Y_1 ) , \cdots ( X_n, Y_n ) $ 。假设 $X_i$ 表示病人 $i$ 的血压，$Y_i$ 表示病人的寿命。

则 $X$ 称为预测变量（predictor），或者 回归值（regressor），或者特征（feature），或者独立变量（independent variable），

$Y$ 称为结果（outcome），或者响应变量（response variable）或者 独立变量（dependent variable）。称 $r(x) = \mathbb{E}(Y | X = x)$ 为回归方程（regression function）。

若假设 $r \in \mathfrak{F}$

若 $\mathfrak{F}$ 是有限维度的，比如直线的几何，则我们得到一个参数回归模型。
若 $\mathfrak{F}$ 是无限维度的，则我们得到一个 非参数回归模型。

基于新病人的 $X$ 值，预测 $Y$ 值的过程称为预测。（废话？）

若 $Y$ 是离散值，则预测是分类（classification）。

若 $Y$ 是连续值，则预测是回归（regression）或者曲线估计（curve estimation）

回归模型有时可以写作：

$$ Y = r(X) + \epsilon $$

其中 $\mathbb{E}(\epsilon ) = 0$。

统计推断的基本概念

估计器、估计子（estimator）是随机变量：

$$ \hat{\theta }_n = g(\mathbf{X}) $$

它是关于观测向量的函数。

其期望和方差记为 $\mathbb{E}(\hat{\theta }_n)$，$\mathbb{V}(\hat{\theta }_n)$

估计误差（estimation error）记为：

$$ \tilde{\theta }_{n}=\hat{\theta }_{n}-\theta $$

估计器的偏差（bias of an estimator）定义为：

$$ \operatorname{bias}(\hat{\theta }_n) = \mathbb{E}_ \theta (\hat{\theta _n}) - \theta $$

若 $\mathbb{E}(\hat{\theta }_n) = \theta $ ，则称 $\hat{\theta }_n$ 是无偏的估计器。即如果平均估计误差是零, 则得到一个无偏的估计器

称 $\hat{\theta}_{n}$ 渐近无偏, 若 $\lim _{n \rightarrow \infty} \mathrm{E}_{\theta}\left[\hat{\theta}_{n}\right]=\theta$ 对于 $\theta$ 所有可能的取值都成立

$\hat{\theta }_n$ 的标准偏移（standard deviation）为 标准误差（standard error），记作 $\operatorname{se}$ ：

$$ \operatorname{se} =\operatorname{se}\left(\hat{\theta}_{n}\right)=\sqrt{\mathbb{V}\left(\hat{\theta}_{n}\right)} $$

均方误差（MSE）：

$$ \operatorname{MSE} = \mathbb{E}_{\theta}\left[\tilde{\theta}_{n}^{2}\right] = \mathbb{E}_{\theta} \left[( \hat{\theta }_{n}-\theta ) ^2\right] $$

用于评估点估计的好坏。

定理：

$$ \operatorname{MSE} = \operatorname{bias}^2(\hat{\theta }_n) + \mathbb{V_ \theta }(\hat{\theta }_n) $$

证明

令 $\bar{\theta}_{n}=\mathbb{E}_{\theta}\left(\hat{\theta}_{n}\right)$, 则 $$ \begin{aligned} \mathbb{E}_{\theta}\left(\hat{\theta}_{n}-\theta\right)^{2} &=\mathbb{E}_{\theta}\left(\hat{\theta}_{n}-\bar{\theta}_{n}+\bar{\theta}_{n}-\theta\right)^{2} \\ &=\mathbb{E}_{\theta}\left(\hat{\theta}_{n}-\bar{\theta}_{n}\right)^{2}+2\left(\bar{\theta}_{n}-\theta\right) \mathbb{E}_{\theta}\left(\hat{\theta}_{n}-\bar{\theta}_{n}\right)+\mathbb{E}_{\theta}\left(\bar{\theta}_{n}-\theta\right)^{2} \\ &=\left(\bar{\theta}_{n}-\theta\right)^{2}+\mathbb{E}_{\theta}\left(\hat{\theta}_{n}-\bar{\theta}_{n}\right)^{2} \\ &=\operatorname{bias}^{2}\left(\hat{\theta}_{n}\right)+\mathbb{V}_{\theta}\left(\hat{\theta}_{n}\right) \\ & = \operatorname{bias}^2 + \operatorname{se}^2 \end{aligned} $$

注：$\mathbb{E}_{\theta}\left(\hat{\theta}_{n}-\bar{\theta}_{n}\right)=\bar{\theta}_{n}-\bar{\theta}_{n}=0$

定理：若 $\operatorname{bias} \to 0$ 且当 $n \to \infty $ 时成立 $\operatorname{se} \to 0$ ，则 $\hat{\theta }_n$ 是一致估计器，即 $\hat{\theta }_n \stackrel{P}{\longrightarrow} \theta $

定义：若

$$ \frac{\hat{\theta}_{n}-\theta}{\text { se }} \leadsto N(0,1) $$

则称估计器 $\hat{\theta }_n$ 是渐进正态的。

置信集

参数 $\theta$ 的 $1-\alpha$ 置信区间（Confidence Interval）为区间 $C_{n}=(a, b)$, 其中, $a=a\left(X_{1}, \cdots, X_{n}\right), b=$ $b\left(X_{1}, \cdots, X_{n}\right)$ 是数据的函数, 满足

$$ \mathbb{P}_{\theta}\left(\theta \in C_{n}\right) \geqslant 1-\alpha, \quad \theta \in \Theta . $$

其含义为 $(a, b)$ 覆盖参数 $\theta $ 的概率为 $1-\alpha$, 称 $1-\alpha$ 为置信区问的覆盖（coverage）.$C_{n}$ 是随机的而 $\theta$ 是固定的.

假设检验

我们通过投掷硬币来检验硬币是否均匀。

令 $H_0$ 表示硬币是均匀的假设。这称为原假设（或者缺省假设，或者零假设）。
令 $H_1$ 表示硬币不均匀的假设。这成为备择假设。

记作：

$$ H_{0}: p=1 / 2 \text { versus } H_{1}: p \neq 1 / 2 $$

如果 $T = \left| \hat{p }_n - ( 1/2 ) \right| $ 很大，则可以拒绝 $H_0$

置信区间例题 某区域有 6250 名教师。随机抽取了 250 个，调查其是否认为有必要配备教学计算机。有 142 人认为有必要。

为“认为有必要”的教师数量计算 99% 置信区间。
如何才能让调查改变后，置信区间变得更狭窄，却能维持 99% 置信度。

解答

我们定义 1 为“认为有必要”，定义 0 为“不认为有必要”。则这是一个两点分布

0 |==============         | p        142
1 |=========              | -1p      108

样本均值 $\dfrac{1 \cdot 142}{250} = 0.568$

样本方差 $s^2 = \dfrac{142 ( 1 - 0.568) ^2 + 108(0 - 0.568)^2}{250 - 1} = 0.246$

则样本标准差 $s = \sqrt[]{0.246} = 0.50$

所以抽样分布标准差 $\sigma _ \bar{x} = \sigma {\sqrt[]{n}}$ . $\sigma$ 是总体标准差，我们不知道。

$$ \sigma {\sqrt[]{n}} \approx \frac{0.50}{\sqrt[]{250}} = 0.031 $$

查询 Z-table 得到面积应该是 $0.495 + 0.5 = 0.995$

$0.995$ 对应

♞1 Let $X_{1}, \ldots, X_{n} \sim$ Poisson $(\lambda)$ and let $\hat{\lambda}=n^{-1} \sum_{i=1}^{n} X_{i}$. Find the bias, se, and MSE of this estimator.

解答

$$ \begin{aligned} \mathbb{E}_{\lambda}\left(\lambda_{n}\right) &=\mathbb{E}\left(n^{-1} \sum_{i=1}^{n} X_{i}\right) \\ &=n^{-1} \sum_{i=1} \mathbb{E}\left(X_{i}\right) \\ &=n^{-1}(n \cdot \lambda) \\ &=\lambda \end{aligned} $$ $$ \begin{aligned} \mathbb{V} _{\lambda}\left(\hat{\lambda}_{n}\right) &=\mathbb{V}\left[n^{-1} \sum_{i=1}^{n} x_{i}\right] \\ &=n^{-2} \sum_{i=1}^{n} \mathbb{V} \left(x_{i}\right) \\ &=n^{-2} \cdot n \cdot \lambda \\ &=\frac{\lambda }{n} \end{aligned} $$ $$ \operatorname{se} = \sqrt[]{\mathbb{V}_ \lambda (\hat{\lambda }_n)} = \sqrt[]{\dfrac{\lambda }{n}} $$ $$ \operatorname{MSE} = \operatorname{bias}^2 + \operatorname{se} ^2 = \dfrac{\lambda }{n} $$

♞2 Let $X_{1}, \ldots, X_{n} \sim \operatorname{Uniform}(0, \theta)$ and let $\widehat{\theta}=\max \left\{X_{1}, \ldots, X_{n}\right\}$. Find the bias, se, and MSE of this estimator.

♞3 Let $X_{1}, \ldots, X_{n} \sim \operatorname{Uniform}(0, \theta)$ and let $\widehat{\theta}=2 \bar{X}_{n}$. Find the bias, se, and MSE of this estimator.

学习贝叶斯学派与频率学派的方法。

12/1, 2021