统计学(二) 参数估计

本文最后更新于:2023年2月28日 下午

1. 三种分布

为了通过样本统计量(x,p,s2\overline x, p, s^2)推断总体参数(μ,π,σ2\mu,\pi,\sigma ^2),并判断推断的可靠性,引入抽样分布。注意,总体分布、样本分布是随机变量的频数分布;抽样分布是统计量的频数分布。

总体分布

总体分布 (population distribution):总体中各元素观察值的频数分布。

样本分布

样本分布 (sample distribution):总体中抽取的某容量为 nn 的样本中各元素观察值的频数分布。

抽样分布

抽样分布 (sampling distribution):重复抽取容量为 nn 的样本并计算样本某一统计量,该统计量所有可能取值的频数分布。

如在重复选取容量为 nn 的样本时,由样本方差的所有可能取值形成的相对频数分布,称为样本方差的抽样分布。

一个例子区分三种分布:

设一个总体共有 44个元素,元素的取值分别为: x1=1,x2=2,x3=3,x4=4x_1=1,x_2=2,x_3=3,x_4=4。从总体中采取重复抽样方法抽取容量为 n=2n=2 的随机样本,写出样本均值 x\overline x 的抽样分布。

  • 总体分布

  • 样本分布(共 1616 个容量为 22 的样本)

  • 抽样分布(1616 个容量为 22 的样本均值的分布即为样本均值的抽样分布)

2. 样本统计量的抽样分布

为了抽象出针对不同事物的不同量纲的抽样分布间存在的规律,我们总结出了不同样本统计量的抽样分布趋于的分布形状。

样本均值的抽样分布

正态分布

中心极限定理 (central limit theorem):

若总体分布非正态分布,随着样本容量 nn 的增大,单个总体参数推断时样本均值的抽样分布趋于正态分布。

若总体分布为正态分布,则无论样本容量大小,样本均值的抽样分布均为正态分布。

即从满足 XN(μ,σ2)X \sim N(\mu, \sigma ^2) 的总体中抽取容量为 nn 的随机样本时,样本均值 x\overline x 的抽样分布近似于 XN(μ,σ2n)X \sim N(\mu,\frac{\sigma ^2}{n})

t分布

tt 分布 (t-distribution): Xt(n)X \sim t(n)

服从正态分布的总体,样本均值 x\overline x 的抽样分布服从正态分布(中心极限定理)。其样本均值经标准化后服从自由度为 n1n-1tt 分布。因此单个总体参数推断时样本均值的抽样分布满足:

XN(μ,σ2)xμsnt(n1)X \sim N(\mu,\sigma^2) \\ \frac{\overline x - \mu}{\frac{s}{\sqrt n}} \sim t(n-1)

tt分布的性质

  • 随着自由度的增大,tt分布趋近于正态分布

样本方差的抽样分布

卡方分布

卡方分布 (Chi-Square Distribution): Xχ2(n)X \sim \chi^2(n)

nn 个独立的标准正态分布变量的平方和服从自由度为 nn 的卡方分布。

X1,X2,...,XnN(0,1)(X12+X22+...+Xn2)χ2(n)X_1,X_2,...,X_n \sim N(0,1) \\ (X_1^2 + X_2^2 +... + X_n^2) \sim \chi^2(n)

单个总体参数推断时样本方差的抽样分布满足:

XN(μ,σ2)(n1)s2σ2χ2(n1)X \sim N(\mu,\sigma2) \\ \frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)

卡方分布的性质

  • 卡方分布的期望为 E(χ2)=nE(\chi^2)=n,方差为 D(χ2)=2nD(\chi^2)=2n

  • 卡方分布具有可加性,若 Uχ2(n1)U \sim \chi^2(n_1)Vχ2(n2)V \sim \chi^2(n_2),则随机变量 U+VU+V 服从U+Vχ2(n1+n2)U+V \sim \chi^2(n_1+n_2)

  • 卡方分布的形状取决于自由度 nn(样本容量)的大小,随着自由度的增大趋于对称。

两个样本方差比的抽样分布

F分布

FF 分布 (t-distribution): XF(n1,n2)X \sim F(n_1,n_2)

UU 是服从自由度为 n1n_1χ2\chi^2 分布的随机变量,Uχ2(n1)U \sim \chi^2(n_1)

VV 是服从自由度为 n2n_2χ2\chi^2 分布的随机变量,Vχ2(n2)V \sim \chi^2(n_2)
则其服从自由度为 n1,n2n_1,n_2FF分布:

F=Un1Vn2F(n1,n2)F = \frac{\frac{U}{n_1}}{\frac{V}{n_2}} \sim F(n_1,n_2)

两个总体参数推断时样本方差比的抽样分布满足:

3. 点/区间估计

统计推断 (statisticl inference)是通过样本推断总体的统计方法,包括参数估计(由样本统计量估计总体统计量)和假设检验(对总体参数作出假设并判断假设是否成立)。

相关概念

参数估计 (parameter estimation)

用样本统计量估计总体参数,总体参数记作 θ\theta

估计量 (estimator)

用来估计总体参数的统计量,记作 θ^\hat \theta

估计值 (estimate)

用来估计总体参数时计算得到的的估计量的具体数值

参数估计的方法有两种:

  • 点估计 (point estimate)

    用样本估计量 θ^\hat \theta 的值(估计值)直接作为总体参数 θ\theta 的估计得到的值

  • 区间估计 (interval estimate)

    在点估计的基础上,给出估计值的浮动范围(如 [θ^β,θ^+β][ \hat \theta - \beta ,\hat \theta + \beta]),作为总体参数 θ\theta 估计存在的区间

为了度量估计可靠性,有以下概念:

  • 置信区间 (confidence interval)

    区间估计中,体参数 θ\theta 估计存在的区间为置信区间(总体参数落在置信区间的概率是 0/10/1

  • 置信水平/置信系数 (confidence level)

    将构造置信区间的步骤重复多次,置信区间中包
    含总体参数 θ\theta 真实值的次数所占的比率

    如果用某种方法构造的所有区间(不同抽样中得到的)中有 95%95\% 的区间包含总体参数的真实值,5%5\% 的区间不包含总体参数的真实值。那么用该方法构造的区间称为置信水平为 95%95\% 的置信区间。

总体均值的区间估计

graph LR;
0[均值] --- 1[大样本] ---> a[正态分布];
0 --- 2[小样本] --- 已知方差的正态总体 ---> a;
2 --- 未知方差的正态总体 ---> t分布

正态分布的区间估计

条件:

大样本 或 已知总体方差且总体正态分布的小样本

步骤:

  1. 计算样本估计量

​ 2. 计算置信区间(置信上下限为 zα2σnz_{\frac{\alpha}{2}} \frac{\sigma}{n}

​ 其中,nn 为样本容量;标准正态分布的 zz 分位数可查表得到;σ\sigma 为总体的标准差,在大样本中可用样本的标准差 ss 替代。

标准正态分布查表

标准正态分布表

标准正态分布表

  1. 查概率

    案例1:若有 XN(1.70,0.04)X \sim N(1.70,0.04),求 P(X1.75)P(X \le 1.75)

    1. 标准化得 1.751.700.04=1.25\frac{1.75-1.70}{0.04} = 1.25,因此正态分布的概率问题可以转化为标准正态分布 XN(0,1)X \sim N(0,1) 中求 P(X1.25)P(X \le 1.25)

    2. 标准正态分布表纵轴为变量xx 得整数及一位小数部分,横轴为其二位小数部分,横纵轴对应索引值为 P(Xx)P(X \le x)

      因此 P(X1.25)P(X \le 1.25)(+0.05,1.2)(+0.05,1.2) 处的值。

  2. zz 分位数

    案例2:求 Z0.025Z_{0.025}

    1. Z0.025Z_{0.025} 代表标准正态分布曲线中右侧面积为 0.0250.025zz的值,求 Z0.025Z_{0.025}即求 P(Xx)=0.025P(X \geq x)=0.025时的 xx

    2. 因此 P(XZ0.025)=10.025=0.975P(X \le Z_{0.025})= 1-0.025=0.975

      由值找坐标得 (+0.06,1.9)(+0.06,1.9),因此 Z0.025Z_{0.025} 的值为 1.961.96

例题

满足条件:已知总体方差且总体正态分布的小样本

  1. 计算样本均值:

    样本均值

  2. 计算置信区间:

    已知总体标准差、样本容量,查表得z分位数

  3. 得到结果: 105.36±3.92=(101.44,109.28)105.36 \pm 3.92 = (101.44,109.28)

    该食品平均重量在 95%95\% 置信水平下的置信区间为 101.44g109.28g101. 44g \sim 109.28g

t分布的区间估计

条件:

未知总体方差且总体正态分布的小样本

步骤:

  1. 计算样本估计量

​ 2. 计算置信区间(置信上下限为 tα2σnt_{\frac{\alpha}{2}} \frac{\sigma}{n}

​ 其中,nn 为样本容量;tt 分布的 tt 分位数可查表得到;ss 为样本的标准差。

t分布查表

t分布临界值表

t分布临界值表

  1. tt 临界值

案例1:求 t0.025t_{0.025}

  1. t$$ 分布表**纵轴为自由度$n$ ,横轴为单尾/双尾时分位点,横纵轴对应索引值为 $t$临界值**。 因此 $(双尾0.05/单尾0.025,15)$ 处值为 $t$临界值 $2.131$。

例题

满足条件:未知总体方差且总体正态分布的小样本

  1. 计算样本均值:

    样本均值

    计算样本标准差:

    样本标准差

  2. 计算置信区间:

    得到结果:

4. 极大似然估计

5. 贝叶斯估计

参考资料

待补充部分:

  • 中心极限定理,χ2\chi^2分布,tt分布,FF分布的证明及详情
  • 样本比例、两个样本均值差、两个样本比例差满足的抽样分布及证明
  • 总体比例的区间估计,两个总体参数的区间估计


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!