数理统计重点内容梳理

周日就要考了,救命...... 另外,本文只是考试内容,有很多很好玩的内容,如方差分析,逐次回归,正交试验等没有涉及。

@[toc]

估计

UMVUE一致最小方差无偏估计

定义(一致最小方差无偏估计) :设\(U_q\)表示参数\(q(\theta)\)所有的方差有限的估计组成的集合,如果存在无偏估计\(T*(\mathbf{x})\),使得: \[ Var_\theta(T^*(x))\leq Var_\theta(T(x)) \] 对任何\(\theta\),任何\(T(x)\in U_q\)成立,那么\(T^*(x)\)就是一致最小方差无偏估计。

一般来说,我们可以用完全充分统计量的方法来寻找一致最小方差无偏估计。首先看几个概念:

定义(统计量) :\(\{x_1,\cdots,x_n\}\)是来自总体\(X\)的样本,那么仅和\(\{x_1,\cdots,x_n\}\)有关的函数\(T(x_1,\cdots,x_n)\)就是一个 统计量

定义(充分统计量) :设总体分布族为\(\{p_\theta:\theta\in\Theta\}\),\(\{x_1,\cdots,x_n\}\)是来自总体\(X\)的样本,\(T\)是统计量。如果给定\(T=t\),样本的条件分布函数\(F_\theta(\{x\}|t)\)和参数\(\theta\)无关,那么称\(T\)是充分统计量。

定理(因子分解定理) :对于总体分布族\(\{p_\theta:\theta\in\Theta\}\),统计量\(T\)充分,等价于:存在一个定义在\(I\times\Theta\)[2]上的实函数\(g(t,\theta)\),和定义在样本空间上的不依赖于参数\(\theta\)的实函数\(h(x)\),使得对于样本的联合分布有: \[ p(x;\theta)=g(T(x),\theta)\cdot h(x) \] 对样本空间上的每一个\(x\)都成立。

【例】\(\{x\}\)是来自泊松总体的\(n\)个样本,求充分统计量。

【解】联合分布: \[ p(\{x\};\lambda)=\frac{e^{-n\lambda} } {x_1!x_2!\cdots x_n!}\lambda^{\sum_{i=1}^nx_i} \]\[ T=\sum x_i,g(T,\lambda)=e^{-n\lambda}\lambda^T,h(x)=\frac 1{x_1!x_2!\cdots x_n!} \]\[ p(\{x\};\lambda)=g(T,\lambda)h(x) \]\(T=\sum x_i\)是充分统计量。

定义*(完全统计量) :对于总体\(X\)的分布族\(\{p_\theta:\theta\in\Theta\}\)\(g(X)\)是随机变量,如果有:“对一切\(\theta\)\(E_\theta[g(x)]=0 \to P_\theta[g(x)=0]=1\)”,则称这个分布族是完全分布族。如果统计量\(T\)的分布族是完全的,那么\(T\)就是完全统计量。

定理(充分性定理) :设\(\{x\}\)是来自总体分布族\(\{p_\theta:\theta\in\Theta\}\)\(n\)个简单样本,如果联合密度函数(联合分布列)可以分解为: \[ p(\{x\},\theta)=c(\theta)h(\{x\})\exp\left\{ \sum_{k=1}^mw_k(\theta)T_k(\{x\}) \right\} \] 其中:

  • \(h(\{x\})\)仅是\(x_1,\cdots,x_n\)的函数
  • \(w=[w_1(\theta),\cdots,w_k(\theta)]\)是定义在\(\Theta^m\)空间上的取值为\(A\subset{\mathbb R}^m\)的向量函数
  • \(c(\theta)\)仅是\(\theta\)的函数

如果\(A\)包含内点,那么\(T_1,\cdots,T_m\)都是完全充分的。

【例】设\(\{x\}\)是来自二项分布\(B(1,\theta)\)[3]总体的\(n\)个简单样本,求\(\theta\)的完全充分统计量。

【解】联合分布列: \[ \begin{aligned} p(\{x\};\theta)&=\prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i}\\\\ &=(1-\theta)^n\exp\left\{ \ln\frac{\theta} {1-\theta}\sum_{i=1}^n x_i \right\} \end{aligned} \] 取:

  • \(w=\ln\frac{\theta} {1-\theta}\)\(m=1\)
  • \(c(\theta)=(1-\theta)^n\)
  • \(h(\{x\})=1\)
  • \(T=\sum x_i\)

\(T\)是完全充分统计量。

定理(Lehmann-Scheffe定理): 设\(S(x)\)是完全充分统计量,\(\varphi(x)\)\(q(\theta)\)的方差有限的无偏估计,则 \[ T(x)=E_\theta[\varphi(x)|S(x)] \]\(q(\theta)\)的一致最小方差无偏估计。

Lehmann-Scheffe定理实际上提供了两种根据完全充分统计量\(S(x)\)寻求\(q(\theta)\)的UMVUE的路径:

  1. 如果能获得\(q(\theta)\)的无偏估计\(\varphi(x)\),那么直接按照公式计算即可。

    【例】设\(\{x\}\)是来自泊松总体的\(n\)个简单样本,求\(q(\lambda)=e^{-\lambda}\)的UMVUE。

    【解】泊松分布列为: \[ p(x;\lambda)=\frac{\lambda^x} {x!}e^{-\lambda}=e^{-\lambda}\frac 1{x!}\exp(\ln (\lambda) x)\ \ x=0,1,2,\cdots \] 则联合分布列的分解: \[ p(\{x\};\theta)=e^{-n\lambda}\prod_{i=1}^n\frac{1} {x_i!}\exp(\ln \lambda \sum_{i=1}^n x_i) \] 取:

    • \(S(x)=\sum x_i\)
    • \(w(\lambda)=\ln \lambda\),\(m=1\)
    • \(c(\lambda)=e^{-n\lambda}\)
    • \(h=\prod \frac{1} {x_i!}\)

    \(S\)是完全充分统计量。

    接下来寻找\(q(\lambda)\)的无偏估计。取 \[ \varphi(x)=I_{x_1=0}(x_1,\cdots,x_n) \] 其中\(I\)是指示函数[4].

    则: \[ E_\lambda[\varphi(x)]=P[x_1=0]=e^{-n\lambda} \]\(\varphi\)\(q(\lambda)\)的无偏估计。则有: \[ T=E[\varphi|S(x)=s] \] 则有: \[ T=\frac{P[x_1=0]P[\sum_{k=2}^nx_k=s]} {P[\sum_{k=1}^nx_k=s]} \] 由于泊松分布的和是泊松分布,\(\lambda\)参数求和,则: \[ T=\left(\frac{n-1} {n}\right)^{\sum x_i} \]

  2. 由于\(T(x)\)一定是\(S(x)\)的函数,因此如果能获取\(S(x)\)的函数\(h(S(x))\),并将其无偏化,则可以获得UMVUE。

    【例】\(\{x\}\)是来自总体\(N(\mu,\sigma^2)\)\(n\)个简单样本,其中\(\mu\)是已知量,求\(\sigma^2\)的UMVUE。

    【解】样本的联合密度函数为: \[ p(\{x\};\sigma^2)=(2\pi\sigma^2)^{-\frac{n} {2} }\exp\left\{-\frac{1} {2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2 \right\} \] 取:

    • \(c(\sigma^2)=(2\pi\sigma^2)^{-\frac n2}\)
    • \(h(\{x\})=1\)
    • \(w(\sigma^2)=-\frac{1} {2\sigma^2},m=1\)
    • \(S(x)=\sum(x_i-\mu)^2\)

    \(S(x)\)是完全充分统计量。由于 \[ E[S(x)]=E\left[\sum(x_i-\mu)^2\right]=n\sigma^2 \] 则: \[ E\left[\frac{1} {n}S(x)\right]=\sigma^2 \] 于是\(S/n\)既是待估计量的无偏估计,也是完全充分统计量\(S\)的函数,因此 \[ \frac Sn=\frac 1n \sum_{i=1}^n(x_i-\mu)^2 \] 是待估计量的UMVUE。

有效估计

矩估计

矩估计法的思想是基于替换原理,用样本矩替换相应的总体矩,进而求出某些待估计参数的过程。

其中的样本矩的意思是根据\(n\)次抽样算出来的矩,比如说抽样\(n\)次的样本是\(\{x_1,x_2,\cdots,x_n\}\),那么\(k\)阶样本原点矩就是 \[ A_k=\frac 1n\sum_{i=1}^n x_i^k \] 而总体矩的意思是将待估计参数代入分布的理论形式中,通过理论分析计算期望而得出的矩。假如待估计参数是\(\theta\),那么\(k\)阶总体原点矩是 \[ \mu_k=E_\theta[X^k] \] 求矩估计的一般步骤是:将待估计的参数\(q(\theta)\)表示成各阶总体矩\(\mu_k\)的函数,然后用样本矩替换总体矩,就可以获得矩估计。

【例】总体\(X\)服从\([a,b]\)上的均匀分布,也就是说,其概率密度函数[1]为: \[ p(x;a,b)=\begin{cases} \frac{1} {b-a} &x\in[a,b]\\\\ 0 &\text{others} \end{cases} \] \(\{x_1,x_2,\cdots,x_n\}\)是总体\(X\)的简单抽样样本。求\(a,b\)的矩估计。

【解】设\(\mu_1=E[x],v_2=D[x]\),有: \[ \begin{cases} \mu_1=\frac{1} {2}(a+b)\\\\[2ex] v_2=\frac{1} {12}(b-a)^2\\\\[2ex] \end{cases} \] 解方程,可得: \[ a=\mu_1-\sqrt{3v_2}\\\\ b=\mu_1+\sqrt{3v_2} \] 用样本均值替换总体均值,用样本方差替换二阶中心矩,有: \[ \mu_1 \to \bar{x}\\\\ v_2 \to \frac{1} {n}\sum_{i=1}^n(x_i-\bar{x})^2 \] 则可得\(a,b\)的矩估计: \[ a=\bar{x}-\sqrt{\frac 3n\sum_{i=1}^n(x_i-\bar{x})^2}\\\\ b=\bar{x}+\sqrt{\frac 3n\sum_{i=1}^n(x_i-\bar{x})^2} \]

极大似然估计

极大似然估计的思想是:如果在一次试验中产生了一个结果,那么一般认为试验条件对这个结果的发生有利,也就是这个结果发生的概率最大。

一般步骤是:先求出一个似然函数\(L(\theta;x_1,x_2,\cdots,x_n)\),它以待估计量\(\theta\)为自变量,以试验结果为参数,它的含义是当前试验结果出现的概率。然后通过将\(L\)(因为概率往往是乘积形式,有时我们也用\(\ln L\))对\(\theta\)求偏导的方法,得出\(L\)取得上界时\(\theta\)的值,并将其作为估计结果。

【例】总体\(X\sim N(\mu,\sigma^2)\).其中\(\mu,\sigma^2\)的参数空间为\(\mu\in{\mathbb R},\sigma^2>0\)\(\{x_1,\cdots,x_n\}\)是简单样本,求\(\mu,\sigma^2\)的极大似然估计。

【解】总体的密度函数为: \[ p(x;\mu,\sigma^2)=\frac{1} {\sqrt{2\pi\sigma^2} }\exp(\frac{-(x-\mu)^2} {2\sigma^2}) \] 则有“似然函数”: \[ \begin{aligned} L(\mu,\sigma^2;x_1,\cdots,x_n)=\prod_{i=1}^np(x_1;\mu,\sigma^2) \end{aligned} \]\[ \ln L=-\frac n2\ln(2\pi)-\frac n2 \ln(\sigma^2)-\frac 1{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2 \] 分别对\(\mu,\sigma^2\)求导,得: \[ \begin{cases} \frac{\partial \ln L} {\partial \mu}=\frac{1} {\sigma^2}\sum_{i=1}^n(x_i-\mu)=0\\\\ \frac{\partial \ln L} {\partial \sigma^2}=-\frac n{2\sigma^2}+\frac 1{2(\sigma^2)^2}\sum_{i=1}^n(x_i-\mu)=0 \end{cases} \] 解得: \[ \mu=\bar{x}\\\\ \sigma^2=\frac 1n \sum(x_i-\bar{x})^2 \]

区间估计(定义)

定义(区间估计) :对于总体分布族\(\{p_\theta:\theta\in\Theta\}\),如果存在两个统计量\(T_1(x),T_2(x)\),对于给定的\(\alpha\),有: \[ P\left\{\theta\in [T_1(x),T_2(x)]\right\}\geq 1-\alpha \] 对任意\(\theta\)都成立,称\([T_1,T_2]\)是参数\(\theta\)置信度为\(1-\alpha\)的区间估计。

区间估计的含义是,假设做\(m\)组重复试验,每组抽取\(n\)个样本,这样就可以得到\(m\)个区间\([T_1,T_2]\)。在这\(m\)个区间中,大约有\(100(1-\alpha)\%\)包含\(\theta\)的真值。我们不能说\(\theta\)落入区间\([T_1,T_2]\)的概率是\(1-\alpha\),这是因为\(\theta\)的真值是一个客观存在的不变量。

Minimax估计

定义(Minimax估计) :对于总体分布族\(\{p_\theta:\theta\in\Theta\}\)\(G_q\)是由待估参数\(q(\theta)\)的估计量(决策函数)[5]组成的集合,如果存在\(T^*\in G_q\),有: \[ \sup_{\theta\in\Theta}R(\theta,T^*)\leq\sup_{\theta\in\Theta}R(\theta,T) \] 对任意\(T\in G_q\)成立,则称\(T^*\)是Minimax估计。其中\(R(\theta,T)\)是风险函数,定义如下: \[ R(\theta,T)=E_\theta[L(\theta,T(x))] \] 其中\(L(\theta,T)\)是损失函数,意思是当待估计量是\(\theta\),然后你估计它为\(T(x)\)时产生的损失。

【例】总体服从两点分布\(B(1,p)\)\(p \in \{\frac 14,\frac12\}\),损失函数如下表所示,求\(p\)的Minimax估计。

\(p\) \(a_1=1/4\) \(a_2=1/2\)
\(p_1=1/4\) 1 4
\(p_2=1/2\) 3 2

【解】仅仅取1个观察值,那么总共有4种决策函数:

  1. T1=1/4

  2. T2=(x==0)?1/4:1/2

  3. T3=(x==0)?1/2:1/4

  4. T4=1/2

    响应的风险表如下:

    \(T_i\) \(R(p_1,T_i)\) \(R(p_2,T_i)\) \(\max R\)
    1 1 3 3
    2 7/4 5/2 5/2
    3 13/4 5/2 13/4
    4 4 2 4

    例如,我们求\(R(p_2,T_2)\): \[ \begin{aligned} R(p_2,T_2)&=E_{p_2}[L(p_2,T_2)]\\\\ &=P_{p_2}\{x=0\}L(p_2,1/4)+P_{p_2}\{x=1\}L(p_2,1/2)\\\\ &=\frac 12\times 3+\frac 12 \times 2\\\\ &=\frac 52 \end{aligned} \] 在第四列中选取最小的,所以应该选\(T_2\)

假设检验

结合实际问题的假设检验

对于正态总体而言,有:

  1. 单个方差已知时总体均值的检验 \[ H_0:\mu=\mu_0\ \ H_1:\mu\neq\mu_0 \] 检验统计量为: \[ z=\frac{\bar{x}-\mu_0} {\sigma/\sqrt{n} }\sim N(0,1) \] 这种检验方法叫做“\(z\)检验”

    拒绝域为: \[ W=\{|z|\geq z_{1-\frac\alpha 2}\} \]

  2. 单个方差未知时总体均值的检验 \[ H_0:\mu=\mu_0\ \ H_1:\mu\neq\mu_0 \] 检验统计量: \[ t=\frac{\bar{x}-\mu_0} {S/\sqrt{n} }\sim t(n-1) \] 这种检验方式叫做\(t\)检验。

    拒绝域: \[ W=\left\{\frac{\bar{x}-\mu_0} {S/\sqrt{n} }\geq t_{1-\frac \alpha2}(n-1)\right\} \]

  3. 单个均值未知时方差的检验 \[ H_0:\sigma^2=\sigma_0^2 \] 检验统计量: \[ \chi^2=\frac{(n-1)S^2} {\sigma_0^2} \sim \chi^2(n-1) \] 拒绝域: \[ W=\{\chi^2\leq\chi^2_{\frac \alpha2}(n-1)\}\cup \{\chi^2\geq\chi_{1-\frac \alpha2}^2(n-1)\} \]

  4. 单个均值已知时方差的检验 \[ H_0:\sigma^2=\sigma_0^2 \] 检验统计量: \[ \chi^2=\frac 1{\sigma_0^2}\sum_{i=1}^n(x_i-\mu)^2\sim\chi^2(n) \] 拒绝域: \[ W=\{\chi^2\leq\chi^2_{\frac \alpha2}(n)\}\cup \{\chi^2\geq\chi_{1-\frac \alpha2}^2(n)\} \]

  5. 两个总体均值相等的检验

    1. 两个方差\(\sigma_1,\sigma_2\)已知

      检验统计量: \[ z=\frac{\bar{x}-\bar{y} } {\sqrt{\frac{\sigma_1^2} {n_1}+\frac{\sigma^2_2} {n_2} }} \]

      拒绝域: \[ W=\{|z|\geq z_{1-\frac\alpha 2}\} \]

    2. 两个方差未知但相等

      检验统计量: \[ S^2_w=\frac{(n_1-1)S^2_1+(n_2-1)S_2^2} {n_1+n_2-2}\\\\ t=\frac{\bar{x}-\bar{y} } {S_w\sqrt{\frac 1{n_1}+\frac1{n_2} }}\sim t(n_1+n_2-2) \] 拒绝域 \[ W=\{|t|\geq t_{1-\frac \alpha2}(n_1+n_2-2)\} \]

    3. 方差情况未知但样本数相等

      检验统计量 \[ z_i=x_i-y_i\\\\ t=\frac{\bar{z} } {S_z/\sqrt{n} }\sim t(n-1) \] 拒绝域 \[ W=\{|t|\geq t_{1-\frac \alpha2}(n-1)\} \]

UMPT一致最优势检验

首先我们明确几个概念

定义(检验函数) 检验函数\(\varphi(x)\)一般定义如下: \[ \varphi(x)=I_{x\in W}(x) \] 也就是拒绝域上的示性函数,即: \[ \varphi(x)=\begin{cases} 1, &x\in W\\\\ 0, &\text{others} \end{cases} \] 当检验函数为1时,选择拒绝\(H_0\)。这样的检验函数叫非随机化检验函数。如果得到样本\(x\)后,以概率\(\varphi(x)\),这就是随机化检验函数。

定义(检验的势函数) 样本观测值落入拒绝域的概率称为势函数\(g(\theta)\).

定义(检验的水平) 对于给定的\(\alpha\in[0,1]\),如果检验\(\varphi(x)\)对所有\(\theta\in\Theta_0\)满足\(E_{\theta}[\varphi(x)]\leq\alpha\),称\(\varphi(x)\)的水平是\(\alpha\)

一个自然的比较检验的优劣的方式是:在相同的检验水平\(\alpha\)下,如果 \[ E_{\theta_1}[\varphi_1(x)]\geq E_{\theta_1}[\varphi_2(x)] \] 那么就说\(\varphi_1\)比较好。

定理(N-P引理) 对于假设检验问题: \[ H_0:\theta= \theta_0\ \ \ H_1:\theta=\theta_1 \] 以及给定检验水平\(\alpha\),有:

  1. 存在非负常数\(k\),检验 \[ \varphi(x)=\begin{cases} 0, &L(x)\geq k\\\\ 1, &L(x)< k\\\\ \end{cases} \] 满足 \[ E_{\theta_0}[\varphi(x)]=\alpha \] 而且检验函数\(\varphi(x)\)是水平为\(\alpha\)的最优势检验。其中\(L(x)\)是似然比统计量: \[ L(x)=\frac{p(x;\theta_1)} {p(x;\theta_0)} \]

  2. 如果检验函数\(\varphi(x)\)是水平为\(\alpha\)的最优势检验,那么一定存在非负常数\(k\),使得\(\varphi(x)\)满足(1)的第一个式子,如果有\(E_{\theta_1}[\varphi(x)]\leq 1\),那么第二个式子也满足。

【例】\(\{x\}\)是来自正态总体\(N(\mu,\sigma^2)\)\(n\)维简单随机样本,\(\mu\geq 0,\sigma\)已知。对于假设: \[ H_0:\mu=0\ \ H_1:\mu=\mu_1>0 \] 求水平为\(\alpha\)的最优势检验。

【解】检验函数具有如下形式: \[ \varphi(x)=\begin{cases} 0, &L(x)\geq k\\\\ 1, &L(x)< k\\\\ \end{cases} \] 其中\(L(x)\)满足: \[ \begin{aligned} L(x)&=\frac{p(x;\mu_1)} {p(x;0)}\\\\ &=\exp\left\{\frac{n\mu_1\bar{x} } {\sigma^2}-\frac{n\mu_1^2} {2\sigma^2}\right\} \end{aligned} \] \(k\)\[ E_{\mu=0}[\varphi(x)]=P_{\mu=0}\{L(x)\geq k\}=\alpha \] 确定。

由于\(L(x)\)\(\bar{x}\)单增,因此 \[ \{x|L(x)\geq k\}=\{x|\bar{x}\geq c\} \] 对于给定的\(\alpha\),有: \[ P_{\mu=0}\{L(x)\geq k\}=P_{\mu=0}\{\bar{x}\geq c\}=1-\Phi\left(\frac{c} {\sigma/\sqrt{n} }\right)=\alpha \]\(c=\sigma z_{1-\alpha}/\sqrt{n}\)

则检验函数: \[ \varphi(x)=\begin{cases} 0, &\bar(x)\geq c\\\\ 1, &\bar(x)< c\\\\ \end{cases} \]

定义(一致最优势检验) 如果检验问题是: \[ H_0:\theta\in \Theta_0\ \ \ H_1:\theta\in\Theta_1 \] 对于\(\Theta_0\)中的每个\(\theta\)\(\varphi\)都是最优势检验,那么\(\varphi\)称为一致最优势检验。

定理(UMPT的确定) 对于单参数的密度函数(分布列)\(p(x;\theta)\),如果可以表示为: \[ p(x;\theta)=d(\theta)h(x)\exp\{c(\theta)T(x)\} \] 其中\(c(\theta)\)严格单增,那么对于检验问题: \[ H_0:\theta\leq \theta_0\ \ H_1:\theta>\theta_0 \]

  1. 水平为\(\alpha\)的UMPT存在,为: \[ \varphi(x)=\begin{cases} 1, &T(x)> c\\\\ r, &T(x)=c\\\\ 0, &T(x)< c\\\\ \end{cases} \] 常数\(c,r\)\(E_{\theta_0}[\varphi(x)]=\alpha\)确定。

  2. 势函数\(g(\theta)=E_{\theta}[\varphi(x)]\)单增。

注解:

  1. 如果\(c(\theta)\)单减,结论仍然成立,只需将检验函数中的不等号调换。

  2. 对于检验问题: \[ H_0:\theta=\theta_0\ \ H_1:\theta>\theta_0 \] 结论完全照原样成立。

  3. 对于检验问题 \[ H_0:\theta\geq \theta_0\ \ H_1:\theta<\theta_0 \] 只需取\(\theta'=-\theta\)即可。

【例】\(\{x\}\)是来自正态总体\(N(\mu,\sigma^2)\)\(n\)维简单随机样本,\(\mu\)已知,\(\sigma^2\)未知,求检验: \[ H_0:\sigma^2\leq \sigma_0^2\ \ H_1:\sigma^2>\sigma_0^2 \] 的UMPT。

【解】对于联合密度函数,有: \[ p(x;\theta)=\left(\frac{1} {\sqrt{2\pi\sigma^2} }\right)^n\exp\left\{-\frac{1} {2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2\right\} \] 其中:

  1. \(d(\sigma^2)=\left(\frac{1} {\sqrt{2\pi\sigma^2} }\right)^n\)
  2. \(h(x)=1\)
  3. \(c(\sigma^2)=-\frac{1} {2\sigma^2}\)
  4. \(T(x)=\sum_{i=1}^n(x_i-\mu)^2\)

则UMPT存在,为: \[ \varphi(x)=\begin{cases} 1, &T(x)\geq c\\\\ 0, &T(x)< c\\\\ \end{cases} \]\[ E_{\sigma^2}[\varphi(x)]=P_{\sigma_0^2}\left\{\frac{1} {\sigma_0^2}\sum_{i=1}^n(x_i-\mu)^2\geq\frac{c} {\sigma_0^2} \right\}=\alpha \] 其中 \[ \frac{1} {\sigma_0^2}\sum_{i=1}^n(x_i-\mu)^2\sim \chi^2(n) \]\[ c=\sigma_0^2\chi^2_{1-\alpha}(n) \] 综上所述,UMPT为: \[ \varphi(x)=\begin{cases} 1, &\sum_{i=1}^n(x_i-\mu)^2\geq \sigma_0^2\chi^2_{1-\alpha}(n)\\\\ 0, &\sum_{i=1}^n(x_i-\mu)^2< \sigma_0^2\chi^2_{1-\alpha}(n)\\\\ \end{cases} \]

分布

由正态分布导出的三大分布:

\(\chi^2\)分布

\(X_1\cdots X_n\)是服从\(N(0,1)\)的随机变量,而且互相独立,则 \[ \sum_{i=1}^nX_i^2 \sim \chi^2(n) \] 叫做:服从自由度为\(n\)\(\chi^2\)分布。

\(t\)分布

\(X\sim N(0,1),Y\sim\chi^2(n)\),而且相互独立,则 \[ \frac{X} {\sqrt{Y/n} }\sim t(n) \] 叫做:服从自由度为\(n\)\(t\)分布,也叫学生分布。

\(F\)分布

\(X\sim \chi^2(n_1),Y\sim\chi^2(n_2)\),而且相互独立,则 \[ \frac{X/n_1} {Y/n_2}\sim F(n_1,n_2) \]

分位数

对于随机变量\(X\)的分布函数\(F(x)\),给定实数\(p\in[0,1]\),若: \[ p\{X\leq x_p\}=F(x_p)=p \]\(x_p\)是此概率分布的\(p\)分位数。

线性回归

证明:\(e=Y-\hat{Y}\)\(\hat{\beta}=(X'X)^{-1}X'Y\)不相关。

证明:\(e=[I_n-X(X'X)^{-1}X']Y\)

\[ Cov(Ax,By)=ACov(x,y)B' \] 得: \[ \begin{aligned} Cov(e,\hat{\beta})&=Cov([I_n-X(X'X)^{-1}X']Y,(X'X)^{-1}X'Y)\\\\ &=[I_n-X(X'X)^{-1}X']D[Y][(X'X)^{-1}X']'\\\\ &=\sigma^2[I_n-X(X'X)^{-1}X'][(X'X)^{-1}X']'\\\\ &=\sigma^2[(X'X)^{-1}X]-[X(X'X)^{-1}(X'(X'X)^{-1}X)]\\\\ &=\sigma^2[(X'X)^{-1}X-X(X'X)^{-1}]\\\\ &=0 \end{aligned} \]

主成分分析

设总体\(\boldsymbol{x}=(x_1,x_2,\cdots,x_p)'\)\(p\)元总体,\(E[\boldsymbol{x}]=\boldsymbol{\mu},Var(\boldsymbol{x})=\boldsymbol{\Sigma}=(\sigma_{ij})\)。我们的目标是把这\(p\)个指标综合成少数几个指标,也就是所谓的主成分。要求这几个指标能尽量多地反应原来\(p\)个指标所提供的信息,而且彼此不相关。

首先考虑把这\(p\)个指标全综合到一个数值\(y_1\)里,有: \[ y_1=u_1x_1+\cdots+u_px_p=\boldsymbol{u'x} \] 因为方差越大,信息量越大,所以我们的目的是:在\(\boldsymbol{u'u}=1\)的条件下,让\(Var(y)=\boldsymbol{u'\Sigma u}\)最大。

有如下定理:

定理 :设\(\boldsymbol{\Sigma}\)的特征值从大到小依次是\(\lambda_1,\lambda_2,\cdots,\lambda_p\geq0\),\(\lambda_i\)对应的单位特征向量为\(\boldsymbol{a_i}\),则:

  1. \(\boldsymbol{u'u}=1\)的条件下,\(\boldsymbol{u'\Sigma u}\)\(\boldsymbol{u=a_1}\)时取得最大值\(\lambda_1\)
  2. \(\boldsymbol{u'u}=1,\boldsymbol{u'a_i}=0\)的条件下(\(i=1,2,3,\cdots,k-1\)),\(\boldsymbol{u'\Sigma u}\)\(u=a_k\)处取得最大值\(\lambda_k\)

于是,我们称\(y_1=\boldsymbol{u'a_1}\)为第一主成分,如果信息量仍然不够,应该选择第二主成分。由于要保证主成分之间的独立性,则条件应该加上\(Cov(y_1,y_2)=\boldsymbol{a'_1\Sigma u}=\lambda\boldsymbol{u'a_1}=0\),于是遵循(2)的规则继续取就行了。如此这样不断地取,直到累计方差贡献率 \[ \frac{\lambda_1+\cdots+\lambda_k} {\lambda_1+\lambda_2+\cdots+\lambda_p} \] 达到预设值(往往为百分之七十五),就结束分析。


  1. (p(x;a,b))的含义是:该函数以(x)为自变量,有两个参数(a)(b) ↩︎
  2. (I)(T(x))的值域,()()的值域 ↩︎
  3. (B(n,p))表示重复(n)次试验,每次试验成功的概率为(p),成功的试验数目。这里实际上退化成了两点分布。 ↩︎
  4. 指示函数(I_a()):当条件(a)为真时为(1),反之为(0). ↩︎
  5. 决策函数的自变量是样本({x}),因变量是对待估计量的估计 ↩︎

数理统计重点内容梳理
https://suzumiyaakizuki.github.io/2022/05/31/数理统计重点内容梳理/
作者
SuzumiyaAkizuki
发布于
2022年5月31日
许可协议