数理统计重点内容梳理

周日就要考了,救命...... 另外,本文只是考试内容,有很多很好玩的内容,如方差分析,逐次回归,正交试验等没有涉及。

@[toc]

估计

UMVUE一致最小方差无偏估计

定义(一致最小方差无偏估计) :设Uq表示参数q(θ)所有的方差有限的估计组成的集合,如果存在无偏估计T(x),使得: Varθ(T(x))Varθ(T(x)) 对任何θ,任何T(x)Uq成立,那么T(x)就是一致最小方差无偏估计。

一般来说,我们可以用完全充分统计量的方法来寻找一致最小方差无偏估计。首先看几个概念:

定义(统计量) :{x1,,xn}是来自总体X的样本,那么仅和{x1,,xn}有关的函数T(x1,,xn)就是一个 统计量

定义(充分统计量) :设总体分布族为{pθ:θΘ},{x1,,xn}是来自总体X的样本,T是统计量。如果给定T=t,样本的条件分布函数Fθ({x}|t)和参数θ无关,那么称T是充分统计量。

定理(因子分解定理) :对于总体分布族,统计量充分,等价于:存在一个定义在[2]上的实函数,和定义在样本空间上的不依赖于参数的实函数,使得对于样本的联合分布有: 对样本空间上的每一个都成立。

【例】是来自泊松总体的个样本,求充分统计量。

【解】联合分布: 是充分统计量。

定义*(完全统计量) :对于总体的分布族是随机变量,如果有:“对一切”,则称这个分布族是完全分布族。如果统计量的分布族是完全的,那么就是完全统计量。

定理(充分性定理) :设是来自总体分布族个简单样本,如果联合密度函数(联合分布列)可以分解为: 其中:

  • 仅是的函数
  • 是定义在空间上的取值为的向量函数
  • 仅是的函数

如果包含内点,那么都是完全充分的。

【例】设是来自二项分布[3]总体的个简单样本,求的完全充分统计量。

【解】联合分布列: 取:

是完全充分统计量。

定理(Lehmann-Scheffe定理): 设是完全充分统计量,的方差有限的无偏估计,则 的一致最小方差无偏估计。

Lehmann-Scheffe定理实际上提供了两种根据完全充分统计量寻求的UMVUE的路径:

  1. 如果能获得的无偏估计,那么直接按照公式计算即可。

    【例】设是来自泊松总体的个简单样本,求的UMVUE。

    【解】泊松分布列为: 则联合分布列的分解: 取:

    • ,

    是完全充分统计量。

    接下来寻找的无偏估计。取 其中是指示函数[4].

    则: 的无偏估计。则有: 则有: 由于泊松分布的和是泊松分布,参数求和,则:

  2. 由于一定是的函数,因此如果能获取的函数,并将其无偏化,则可以获得UMVUE。

    【例】是来自总体个简单样本,其中是已知量,求的UMVUE。

    【解】样本的联合密度函数为: 取:

    是完全充分统计量。由于 则: 于是既是待估计量的无偏估计,也是完全充分统计量的函数,因此 是待估计量的UMVUE。

有效估计

矩估计

矩估计法的思想是基于替换原理,用样本矩替换相应的总体矩,进而求出某些待估计参数的过程。

其中的样本矩的意思是根据次抽样算出来的矩,比如说抽样次的样本是,那么阶样本原点矩就是 而总体矩的意思是将待估计参数代入分布的理论形式中,通过理论分析计算期望而得出的矩。假如待估计参数是,那么阶总体原点矩是 求矩估计的一般步骤是:将待估计的参数表示成各阶总体矩的函数,然后用样本矩替换总体矩,就可以获得矩估计。

【例】总体服从上的均匀分布,也就是说,其概率密度函数[1]为: 是总体的简单抽样样本。求的矩估计。

【解】设,有: 解方程,可得: 用样本均值替换总体均值,用样本方差替换二阶中心矩,有: 则可得的矩估计:

极大似然估计

极大似然估计的思想是:如果在一次试验中产生了一个结果,那么一般认为试验条件对这个结果的发生有利,也就是这个结果发生的概率最大。

一般步骤是:先求出一个似然函数,它以待估计量为自变量,以试验结果为参数,它的含义是当前试验结果出现的概率。然后通过将(因为概率往往是乘积形式,有时我们也用)对求偏导的方法,得出取得上界时的值,并将其作为估计结果。

【例】总体.其中的参数空间为是简单样本,求的极大似然估计。

【解】总体的密度函数为: 则有“似然函数”: 分别对求导,得: 解得:

区间估计(定义)

定义(区间估计) :对于总体分布族,如果存在两个统计量,对于给定的,有: 对任意都成立,称是参数置信度为的区间估计。

区间估计的含义是,假设做组重复试验,每组抽取个样本,这样就可以得到个区间。在这个区间中,大约有包含的真值。我们不能说落入区间的概率是,这是因为的真值是一个客观存在的不变量。

Minimax估计

定义(Minimax估计) :对于总体分布族是由待估参数的估计量(决策函数)[5]组成的集合,如果存在,有: 对任意成立,则称是Minimax估计。其中是风险函数,定义如下: 其中是损失函数,意思是当待估计量是,然后你估计它为时产生的损失。

【例】总体服从两点分布,损失函数如下表所示,求的Minimax估计。

1 4
3 2

【解】仅仅取1个观察值,那么总共有4种决策函数:

  1. T1=1/4

  2. T2=(x==0)?1/4:1/2

  3. T3=(x==0)?1/2:1/4

  4. T4=1/2

    响应的风险表如下:

    1 1 3 3
    2 7/4 5/2 5/2
    3 13/4 5/2 13/4
    4 4 2 4

    例如,我们求: 在第四列中选取最小的,所以应该选

假设检验

结合实际问题的假设检验

对于正态总体而言,有:

  1. 单个方差已知时总体均值的检验 检验统计量为: 这种检验方法叫做“检验”

    拒绝域为:

  2. 单个方差未知时总体均值的检验 检验统计量: 这种检验方式叫做检验。

    拒绝域:

  3. 单个均值未知时方差的检验 检验统计量: 拒绝域:

  4. 单个均值已知时方差的检验 检验统计量: 拒绝域:

  5. 两个总体均值相等的检验

    1. 两个方差已知

      检验统计量:

      拒绝域:

    2. 两个方差未知但相等

      检验统计量: 拒绝域

    3. 方差情况未知但样本数相等

      检验统计量 拒绝域

UMPT一致最优势检验

首先我们明确几个概念

定义(检验函数) 检验函数一般定义如下: 也就是拒绝域上的示性函数,即: 当检验函数为1时,选择拒绝。这样的检验函数叫非随机化检验函数。如果得到样本后,以概率,这就是随机化检验函数。

定义(检验的势函数) 样本观测值落入拒绝域的概率称为势函数.

定义(检验的水平) 对于给定的,如果检验对所有满足,称的水平是

一个自然的比较检验的优劣的方式是:在相同的检验水平下,如果 那么就说比较好。

定理(N-P引理) 对于假设检验问题: 以及给定检验水平,有:

  1. 存在非负常数,检验 满足 而且检验函数是水平为的最优势检验。其中是似然比统计量:

  2. 如果检验函数是水平为的最优势检验,那么一定存在非负常数,使得满足(1)的第一个式子,如果有,那么第二个式子也满足。

【例】是来自正态总体维简单随机样本,已知。对于假设: 求水平为的最优势检验。

【解】检验函数具有如下形式: 其中满足: 确定。

由于单增,因此 对于给定的,有:

则检验函数:

定义(一致最优势检验) 如果检验问题是: 对于中的每个都是最优势检验,那么称为一致最优势检验。

定理(UMPT的确定) 对于单参数的密度函数(分布列),如果可以表示为: 其中严格单增,那么对于检验问题:

  1. 水平为的UMPT存在,为: 常数确定。

  2. 势函数单增。

注解:

  1. 如果单减,结论仍然成立,只需将检验函数中的不等号调换。

  2. 对于检验问题: 结论完全照原样成立。

  3. 对于检验问题 只需取即可。

【例】是来自正态总体维简单随机样本,已知,未知,求检验: 的UMPT。

【解】对于联合密度函数,有: 其中:

则UMPT存在,为: 其中 综上所述,UMPT为:

分布

由正态分布导出的三大分布:

分布

是服从的随机变量,而且互相独立,则 叫做:服从自由度为分布。

分布

,而且相互独立,则 叫做:服从自由度为分布,也叫学生分布。

分布

,而且相互独立,则

分位数

对于随机变量的分布函数,给定实数,若: 是此概率分布的分位数。

线性回归

证明:不相关。

证明:

得:

主成分分析

设总体元总体,。我们的目标是把这个指标综合成少数几个指标,也就是所谓的主成分。要求这几个指标能尽量多地反应原来个指标所提供的信息,而且彼此不相关。

首先考虑把这个指标全综合到一个数值里,有: 因为方差越大,信息量越大,所以我们的目的是:在的条件下,让最大。

有如下定理:

定理 :设的特征值从大到小依次是,对应的单位特征向量为,则:

  1. 的条件下,时取得最大值
  2. 的条件下(),处取得最大值

于是,我们称为第一主成分,如果信息量仍然不够,应该选择第二主成分。由于要保证主成分之间的独立性,则条件应该加上,于是遵循(2)的规则继续取就行了。如此这样不断地取,直到累计方差贡献率 达到预设值(往往为百分之七十五),就结束分析。



本站的运行成本约为每个月5元人民币,如果您觉得本站有用,欢迎打赏:

  1. (p(x;a,b))的含义是:该函数以(x)为自变量,有两个参数(a)(b) ↩︎
  2. (I)(T(x))的值域,()()的值域 ↩︎
  3. (B(n,p))表示重复(n)次试验,每次试验成功的概率为(p),成功的试验数目。这里实际上退化成了两点分布。 ↩︎
  4. 指示函数(I_a()):当条件(a)为真时为(1),反之为(0). ↩︎
  5. 决策函数的自变量是样本({x}),因变量是对待估计量的估计 ↩︎

数理统计重点内容梳理
https://suzumiyaakizuki.github.io/2022/05/31/数理统计重点内容梳理/
作者
SuzumiyaAkizuki
发布于
2022年5月31日
许可协议