Skip to content

数理统计·2 参数估计

考纲内容

  • 点估计的概念
  • 估计量与估计值
  • 矩估计法
  • 最大似然估计法
  • 估计量的评选标准
  • 区间估计的概念
  • 单个正态总体的均值和方差的区间估计
  • 两个正态总体的均值差和方差比的区间估计

一、点估计

考纲摘要:理解参数的点估计、估计量与估计值的概念

点估计问题的一般提法如下:

设总体 $X $ 的分布函数 $ F (x; \theta)\theta $ 是待估参数设 $ X_1, X_2, \ldots, X_n$ 是 $X $ 的一个样本,$ x_1, x_2, \ldots, x_n$ 是相应的一个样本值点估计问题就是要构造一个适当的统计量 θ^(X1,X2,,Xn),用它的观察值 θ^(x1,x2,,xn) 作为未知参数 θ 的近似值。

我们称 θ^(X1,X2,,Xn)θ估计量,称 θ^(x1,x2,,xn)θ估计值。在不致混淆的情况下统称估计量和估计值为估计,并都简记为 θ^。由于估计量是样本的函数,因此对于不同的样本值,θ 的估计值一般是不相同的。

1. 矩估计法

考纲摘要:掌握矩估计法(一阶矩、二阶矩)

设 $X $ 为连续型随机变量,其概率密度为 $ f (x; \theta_1, \theta_2, \cdots, \theta_k)$ 或 X 为离散型随机变量,其分布律为 P{X=x}=p(x;θ1,θ2,,θk) 其中 $\theta_1, \theta_2, \cdots, \theta_k $ 为待估参数,$ X_1, X_2, \cdots, X_n$ 是来自 X 的样本。假设总体 $X $ 的前 $ k$ 阶矩

μl=E(Xl)=xlf(x;θ1,θ2,,θk)dx(X为连续型)μl=E(Xl)=xRXxlp(x;θ1,θ2,,θk)(X 为离散型)l=1,2,,k

(其中 $R_X $ 是 $ X$ 可能的取值范围)存在。一般来说,它们是 θ1,θ2,,θk 的函数。

基于样本矩:

Al=1ni=1nXil,l=1,2,,k

依概率收敛于相应的总体矩 μl($ l = 1, 2, \cdots, k$),样本矩的连续函数依概率收敛于相应的总体矩的连续函数,我们就用样本矩作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量。

这种估计方法称为矩估计法。矩估计法的具体做法如下:设

{μ1=μ1(θ1,θ2,,θk),μ2=μ2(θ1,θ2,,θk),μk=μk(θ1,θ2,,θk).

通过求解这组方程,得到

{θ1=θ1(μ1,μ2,,μk),θ2=θ2(μ1,μ2,,μk),θk=θk(μ1,μ2,,μk).

Ai 分别代替上式中的 μi,即

θ^i=θi(A1,A2,,Ak),i=1,2,,k

分别作为 θi,i=1,2,,k 的估计量,这种估计量称为矩估计量。矩估计量的观察值称为矩估计值

2. 最大似然估计法

考纲摘要:最大似然估计法

1. 离散型总体的最大似然估计量

若总体 $X $ 属离散型,其分布律为 $ P{X = x} = p (x; \theta),\theta\in\Theta\theta\Theta$ 是 $\theta $ 可能取值的范围设 $ X_1, X_2, \cdots, X_n $ 是来自 $ X$ 的样本,则 X1,X2,,Xn 的联合分布律为

i=1np(xi;θ).

又设 $x_1, x_2, \cdots, x_n $ 是相应于样本 $ X_1, X_2, \cdots, X_n$ 的一个样本值易知样本 $X_1, X_2, \cdots, X_n $ 取到观察值 $ x_1, x_2, \cdots, x_n$ 的概率,亦即事件 { X1=x1,X2=x2,,Xn=xn } 发生的概率为

L(θ)=L(x1,x2,,xn;θ)=i=1np(xi;θ),θΘ.

这一概率随 θ 的取值而变化,它是 θ 的函数,L(θ) 称为样本的似然函数(注意,这里 x1,x2,,xn 是已知的样本值,它们都是常数)。

关于最大似然估计法,我们有以下的直观想法:

  • 现在已经取到样本值 $x_1, x_2, \cdots, x_n $ 了,这表明取到这一样本值的概率 $ L (\theta)$ 比较大。
  • 我们当然不会考虑那些不能使样本 x1,x2,,xn 出现的 θΘ 作为 θ 的估计。
  • 再者,如果已知当 $\theta = \theta_0\in\Theta $ 时使 $ L (\theta)$ 取很大值,而 Θ 中的其他 $\theta $ 的值使 $ L (\theta)$ 取很小值,我们自然认为取 θ0 作为未知参数 θ 的估计值较为合理。

由费希尔(R.A. Fisher)引进的最大似然估计法,就是固定样本观察值 x1,x2,,xn,在 θ 取值的可能范围 $\Theta $ 内挑选使似然函数 $ L (x_1, x_2, \cdots, x_n; \theta)$ 达到最大的参数值 θ^ 作为参数 θ 的估计值。即取 θ^ 使

L(x1,x2,,xn;θ^)=maxθΘL(x1,x2,,xn;θ).

这样得到的 θ^ 与样本值 x1,x2,,xn 有关,常记为 θ^(x1,x2,,xn),称为参数 θ最大似然估计值,而相应的统计量 θ^(X1,X2,,Xn) 称为参数 θ最大似然估计量

2. 连续型总体的最大似然估计量

若总体 $X $ 属连续型,其概率密度为 $ f (x; \theta)\theta \in \Theta$ 的形式已知,θ 为待估参数,是 $\theta $ 可能取值的范围。设 $ X_1, X_2, \cdots, X_n $ 是来自 $ X$ 的样本,则 X1,X2,,Xn 的联合密度为

i=1nf(xi;θ)

设 $x_1, x_2, \cdots, x_n $ 是相应于样本 $ X_1, X_2, \cdots, X_n$ 的一个样本值,则随机点 (X1,X2,,Xn) 落在点 (x1,x2,,xn) 的邻域(边长分别为 $\mathrm dx_1, \mathrm dx_2, \cdots, \mathrm dx_n $ 的 $ n$ 维立方体)内的概率近似地为

i=1nf(xi;θ)dxi

其值随 θ 的取值而变化。与离散型的情况一样,我们取 θ 的估计值 θ^ 使概率最大,但因子 dx1,dx2,,dxn 不随 θ 而变,故只需考虑函数

L(θ)=L(x1,x2,,xn;θ)=i=1nf(xi;θ)

的最大值。这里 L(θ) 称为样本的似然函数。若

L(x1,x2,,xn;θ^)=maxθΘL(x1,x2,,xn;θ),

则称 θ^(x1,x2,,xn)θ最大似然估计值,称 θ^(X1,X2,,Xn)θ最大似然估计量

3. 最大似然估计量求解最大值

这样,确定最大似然估计量的问题就归结为微分学中的求最大值的问题了。在很多情形下,p(x;θ)f(x;θ) 关于 θ 可微,这时 θ^ 常可从方程

dL(θ)dθ=0

解得。又因 L(θ)lnL(θ) 在同一 θ 处取到极值,因此,θ 的最大似然估计 θ^ 也可以从方程

dlnL(θ)dθ=0

求得,而从后一方程求解往往比较方便。该方程称为对数似然方程

二、估计量的评选标准

考纲摘要:了解估计量的无偏性、有效性(最小方差性)和一致性(相合性)的概念,并会验证估计量的无偏性

1. 无偏性

设 $X_1, X_2, \ldots, X_n $ 是总体 $ X$ 的一个样本,$\theta \in \Theta $ 是包含在总体 $ X$ 的分布中的待估参数,这里 Θθ 的取值范围

若估计量 θ^=θ^(X1,X2,,Xn) 的数学期望 E(θ^) 存在,且对于任意 θΘ

E(θ^)=θ

注:由于 $\theta $ 不确定,因此 $ E(\hat\theta)$ 实际上是一个关于 θ 的函数,所以才称得上 θΘ

则称 θ^θ 的无偏估计量

估计量的无偏性是指,对于某些样本值,由这一估计量得到的估计值相对于真值来说偏大,有些则偏小。反复将这一估计量使用多次,就“平均”来说其偏差为 0。在科学技术中,E(θ^)θ 称为以 θ^ 作为 θ 的估计的系统误差。无偏估计的实际意义就是无系统误差

2. 有效性(最小方差性)

θ^1=θ^1(X1,X2,,Xn)θ^2=θ^2(X1,X2,,Xn) 都是 θ 的无偏估计量,若对于任意 θΘ

D(θ^1)D(θ^2)

且至少对于某一个 θΘ 上式中的不等号严格成立,则称 θ^1θ^2 有效

3. 相合性(一致性)

θ^(X1,X2,,Xn) 为参数 θ 的估计量,若对于任意 $\theta \in \Theta $,当 $ n \to \infty$ 时 θ^(X1,X2,,Xn) 依概率收敛于 θ,则称 θ^θ 的相合估计量。即:

θΘ,ε>0,limnP{|θ^θ|<ε}=1,

则称 θ^θ 的相合估计量。

三、区间估计

1. 置信区间

设总体 $X $ 的分布函数 $ F (x; \theta)$ 含有一个未知参数 θθΘθ 可能取值的范围。对于给定值 $\alpha 0 < \alpha < 1 $),若由来自 $ X$ 的样本 X1,X2,,Xn 确定的两个统计量 θL=θL(X1,X2,,Xn)θU=θU(X1,X2,,Xn)θL<θU),对于任意 θΘ 满足

P{θL(X1,X2,,Xn)<θ<θU(X1,X2,,Xn)}1α,

则称 1α置信水平 随机区间 (θL,θU)θ 的置信水平为 1α置信区间 θL 和 $\theta_U $ 分别称为置信水平为 $ 1 - \alpha$ 的双侧置信区间的置信下限置信上限

寻求未知参数 θ 的置信区间的具体做法如下:

  1. 寻找枢轴量:寻求一个样本 X1,X2,,Xnθ 的函数 W=W(X1,X2,,Xn;θ),使得 W 的分布不依赖于 θ 以及其他未知参数。称具有这种性质的函数 W 为枢轴量。

  2. 定出常数并构造置信区间:对于给定的置信水平 $1 - \alpha $,定出两个常数 $ a$ 和 b 使得

    P{a<W(X1,X2,,Xn;θ)<b}=1α.

    若能从 a<W(X1,X2,,Xn;θ)<b 得到与之等价的 θ 的不等式 θL<θ<θU,其中 θL=θL(X1,X2,,Xn)θU=θU(X1,X2,,Xn) 都是统计量,那么 (θL,θU) 就是 $\theta $ 的一个置信水平为 $ 1 - \alpha$ 的置信区间。

2. 正态总体均值与方差的区间估计

1. 单个总体 N(μ,σ2) 的情况

设已给定置信水平为 $1-\alpha $,并设 $ X_1,X_2,\cdots,X_n $ 为总体 $ N (\mu,\sigma^2)\overline X,S^2$ 分别为样本均值和样本方差

(1) 均值 μ 的置信区间

σ2 已知时,可使用 Xμσ/n 作为枢纽量, μ 的一个置信水平为 1α 的置信区间为:

(X±σnzα/2)

其中,zα/2 是标准正态分布 N (0,1) 的 α/2 分位点

σ2 未知时,可以使用 XμS/n 作为枢纽量,其中一个置信水平为 1α 置信区间为

(X±Sntα/2(n1))
(2) 方差 σ2 的置信区间

μ 未知时,$\sigma^2 $ 的置信水平为 $ 1-\alpha$ 的置信区间为:

((n1)S2χα/22(n1),(n1)S2χ1α/22(n1))

2. 两个总体 N(μ1,σ12),N(μ2,σ22) 的情况

设两个总体的样本分别为 {X1,X2,,Xn1},{X1,X2,,Xn2}

(1) μ1μ2 的置信区间

σ12,σ22 已知的情况下,$\mu_1-\mu_2 $ 的一个置信水平为 $ 1-\alpha$ 的置信区间

(XY±zα/2σ12n1+σ22n2)

σ12=σ22=σ2,但 σ 未知的情况下,μ1μ2 的一个置信水平为 1α 的置信区间

(XY±tα/2(n1+n22)Sw1n1+1n2)Sw2=(n11)S12+(n21)S22n1+n22,Sw=Sw2
(2) σ12/σ22 的置信区间

μ1,μ2 未知时,$\sigma_1^2/\sigma_2^2 $ 的一个置信水平为 $ 1-\alpha$ 的置信区间

S12S221Fα/2(n11,n21),S12S221F1α/2(n11,n21)

9


大题解题套路

最大似然估计(MLE)

  1. 写似然函数 L=f(xi;θ)
  2. 取对数 lnL
  3. θ 求导令 =0,解出 θ^
  4. 检验无偏性:E(θ^)=θ

矩估计

  1. E(X)=g(θ),用 X¯=g(θ^) 解出 θ^
  2. 若有两个参数:再用 E(X2)=h(θ1,θ2),令 A2=h(θ^1,θ^2),联立解方程组

易错辨析

易错表述正确理解
"$S^2 $ 除以 $ n$"❌ 样本方差除以 n-1(为了无偏)
"MLE 一定无偏"❌ MLE 不一定是无偏估计
"频率等于概率"❌ 频率依概率收敛于概率(大数定律)
"$D(X)=0 $ 则 $ X$ 为常数"D(X)=0P(X=E(X))=1

Released under the MIT License.