数理统计·2 参数估计

考纲内容

点估计的概念
估计量与估计值
矩估计法
最大似然估计法
估计量的评选标准
区间估计的概念
单个正态总体的均值和方差的区间估计
两个正态总体的均值差和方差比的区间估计

一、点估计

考纲摘要：理解参数的点估计、估计量与估计值的概念

点估计问题的一般提法如下：

设总体 $X $ 的分布函数 $ F (x; \theta) $的形式为已知，$ \theta $ 是待估参数设 $ X_1, X_2, \ldots, X_n$ 是 $X $ 的一个样本，$ x_1, x_2, \ldots, x_n$ 是相应的一个样本值点估计问题就是要构造一个适当的统计量 $\hat{θ} (X_{1}, X_{2}, \dots, X_{n})$ ，用它的观察值 $\hat{θ} (x_{1}, x_{2}, \dots, x_{n})$ 作为未知参数 $θ$ 的近似值。

我们称 $\hat{θ} (X_{1}, X_{2}, \dots, X_{n})$ 为 $θ$ 的估计量，称 $\hat{θ} (x_{1}, x_{2}, \dots, x_{n})$ 为 $θ$ 的估计值。在不致混淆的情况下统称估计量和估计值为估计，并都简记为 $\hat{θ}$ 。由于估计量是样本的函数，因此对于不同的样本值， $θ$ 的估计值一般是不相同的。

1. 矩估计法

考纲摘要：掌握矩估计法（一阶矩、二阶矩）

设 $X $ 为连续型随机变量，其概率密度为 $ f (x; \theta_1, \theta_2, \cdots, \theta_k)$ 或 $X$ 为离散型随机变量，其分布律为 $P {X = x} = p (x; θ_{1}, θ_{2}, \dots, θ_{k})$ 其中 $\theta_1, \theta_2, \cdots, \theta_k $ 为待估参数，$ X_1, X_2, \cdots, X_n$ 是来自 $X$ 的样本。假设总体 $X $ 的前 $ k$ 阶矩

μ_{l} = E (X^{l}) = \int_{- \infty}^{\infty} x^{l} f (x; θ_{1}, θ_{2}, \dots, θ_{k}) d x (X为连续型) μ_{l} = E (X^{l}) = \sum_{x \in R_{X}} x^{l} p (x; θ_{1}, θ_{2}, \dots, θ_{k}) (X 为离散型) l = 1, 2, \dots, k

（其中 $R_X $ 是 $ X$ 可能的取值范围）存在。一般来说，它们是 $θ_{1}, θ_{2}, \dots, θ_{k}$ 的函数。

基于样本矩：

A_{l} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}^{l}, l = 1, 2, \dots, k

依概率收敛于相应的总体矩 $μ_{l}$ （$ l = 1, 2, \cdots, k$），样本矩的连续函数依概率收敛于相应的总体矩的连续函数，我们就用样本矩作为相应的总体矩的估计量，而以样本矩的连续函数作为相应的总体矩的连续函数的估计量。

这种估计方法称为矩估计法。矩估计法的具体做法如下：设

{\begin{cases} μ_{1} = μ_{1} (θ_{1}, θ_{2}, \dots, θ_{k}), \\ μ_{2} = μ_{2} (θ_{1}, θ_{2}, \dots, θ_{k}), \\ ⋮ \\ μ_{k} = μ_{k} (θ_{1}, θ_{2}, \dots, θ_{k}) . \end{cases}

通过求解这组方程，得到

{\begin{cases} θ_{1} = θ_{1} (μ_{1}, μ_{2}, \dots, μ_{k}), \\ θ_{2} = θ_{2} (μ_{1}, μ_{2}, \dots, μ_{k}), \\ ⋮ \\ θ_{k} = θ_{k} (μ_{1}, μ_{2}, \dots, μ_{k}) . \end{cases}

以 $A_{i}$ 分别代替上式中的 $μ_{i}$ ，即

{\hat{θ}}_{i} = θ_{i} (A_{1}, A_{2}, \dots, A_{k}), i = 1, 2, \dots, k

分别作为 $θ_{i}, i = 1, 2, \dots, k$ 的估计量，这种估计量称为矩估计量。矩估计量的观察值称为矩估计值

2. 最大似然估计法

考纲摘要：最大似然估计法

1. 离散型总体的最大似然估计量

若总体 $X $ 属离散型，其分布律为 $ P{X = x} = p (x; \theta),\theta\in\Theta $，的形式已知，$ \theta $为待估参数，$ \Theta$ 是 $\theta $ 可能取值的范围设 $ X_1, X_2, \cdots, X_n $ 是来自 $ X$ 的样本，则 $X_{1}, X_{2}, \dots, X_{n}$ 的联合分布律为

\prod_{i = 1}^{n} p (x_{i}; θ) .

又设 $x_1, x_2, \cdots, x_n $ 是相应于样本 $ X_1, X_2, \cdots, X_n$ 的一个样本值易知样本 $X_1, X_2, \cdots, X_n $ 取到观察值 $ x_1, x_2, \cdots, x_n$ 的概率，亦即事件 { $X_{1} = x_{1}, X_{2} = x_{2}, \dots, X_{n} = x_{n}$ } 发生的概率为

L (θ) = L (x_{1}, x_{2}, \dots, x_{n}; θ) = \prod_{i = 1}^{n} p (x_{i}; θ), θ \in Θ .

这一概率随 $θ$ 的取值而变化，它是 $θ$ 的函数， $L (θ)$ 称为样本的似然函数（注意，这里 $x_{1}, x_{2}, \dots, x_{n}$ 是已知的样本值，它们都是常数）。

关于最大似然估计法，我们有以下的直观想法：

现在已经取到样本值 $x_1, x_2, \cdots, x_n $ 了，这表明取到这一样本值的概率 $ L (\theta)$ 比较大。
我们当然不会考虑那些不能使样本 $x_{1}, x_{2}, \dots, x_{n}$ 出现的 $θ \in Θ$ 作为 $θ$ 的估计。
再者，如果已知当 $\theta = \theta_0\in\Theta $ 时使 $ L (\theta)$ 取很大值，而 $Θ$ 中的其他 $\theta $ 的值使 $ L (\theta)$ 取很小值，我们自然认为取 $θ_{0}$ 作为未知参数 $θ$ 的估计值较为合理。

由费希尔（R.A. Fisher）引进的最大似然估计法，就是固定样本观察值 $x_{1}, x_{2}, \dots, x_{n}$ ，在 $θ$ 取值的可能范围 $\Theta $ 内挑选使似然函数 $ L (x_1, x_2, \cdots, x_n; \theta)$ 达到最大的参数值 $\hat{θ}$ 作为参数 $θ$ 的估计值。即取 $\hat{θ}$ 使

L (x_{1}, x_{2}, \dots, x_{n}; \hat{θ}) = max_{θ \in Θ} L (x_{1}, x_{2}, \dots, x_{n}; θ) .

这样得到的 $\hat{θ}$ 与样本值 $x_{1}, x_{2}, \dots, x_{n}$ 有关，常记为 $\hat{θ} (x_{1}, x_{2}, \dots, x_{n})$ ，称为参数 $θ$ 的最大似然估计值，而相应的统计量 $\hat{θ} (X_{1}, X_{2}, \dots, X_{n})$ 称为参数 $θ$ 的最大似然估计量。

2. 连续型总体的最大似然估计量

若总体 $X $ 属连续型，其概率密度为 $ f (x; \theta) $，$ \theta \in \Theta$ 的形式已知， $θ$ 为待估参数，是 $\theta $ 可能取值的范围。设 $ X_1, X_2, \cdots, X_n $ 是来自 $ X$ 的样本，则 $X_{1}, X_{2}, \dots, X_{n}$ 的联合密度为

\prod_{i = 1}^{n} f (x_{i}; θ)

设 $x_1, x_2, \cdots, x_n $ 是相应于样本 $ X_1, X_2, \cdots, X_n$ 的一个样本值，则随机点 $(X_{1}, X_{2}, \dots, X_{n})$ 落在点 $(x_{1}, x_{2}, \dots, x_{n})$ 的邻域（边长分别为 $\mathrm dx_1, \mathrm dx_2, \cdots, \mathrm dx_n $ 的 $ n$ 维立方体）内的概率近似地为

\prod_{i = 1}^{n} f (x_{i}; θ) d x_{i}

其值随 $θ$ 的取值而变化。与离散型的情况一样，我们取 $θ$ 的估计值 $\hat{θ}$ 使概率最大，但因子 $d x_{1}, d x_{2}, \dots, d x_{n}$ 不随 $θ$ 而变，故只需考虑函数

L (θ) = L (x_{1}, x_{2}, \dots, x_{n}; θ) = \prod_{i = 1}^{n} f (x_{i}; θ)

的最大值。这里 $L (θ)$ 称为样本的似然函数。若

L (x_{1}, x_{2}, \dots, x_{n}; \hat{θ}) = max_{θ \in Θ} L (x_{1}, x_{2}, \dots, x_{n}; θ),

则称 $\hat{θ} (x_{1}, x_{2}, \dots, x_{n})$ 为 $θ$ 的最大似然估计值，称 $\hat{θ} (X_{1}, X_{2}, \dots, X_{n})$ 为 $θ$ 的最大似然估计量。

3. 最大似然估计量求解最大值

这样，确定最大似然估计量的问题就归结为微分学中的求最大值的问题了。在很多情形下， $p (x; θ)$ 和 $f (x; θ)$ 关于 $θ$ 可微，这时 $\hat{θ}$ 常可从方程

\frac{d L (θ)}{d θ} = 0

解得。又因 $L (θ)$ 与 $\ln L (θ)$ 在同一 $θ$ 处取到极值，因此， $θ$ 的最大似然估计 $\hat{θ}$ 也可以从方程

\frac{d \ln L (θ)}{d θ} = 0

求得，而从后一方程求解往往比较方便。该方程称为对数似然方程

二、估计量的评选标准

考纲摘要：了解估计量的无偏性、有效性（最小方差性）和一致性（相合性）的概念，并会验证估计量的无偏性

1. 无偏性

设 $X_1, X_2, \ldots, X_n $ 是总体 $ X$ 的一个样本，$\theta \in \Theta $ 是包含在总体 $ X$ 的分布中的待估参数，这里 $Θ$ 是 $θ$ 的取值范围

若估计量 $\hat{θ} = \hat{θ} (X_{1}, X_{2}, \dots, X_{n})$ 的数学期望 $E (\hat{θ})$ 存在，且对于任意 $θ \in Θ$ 有

E (\hat{θ}) = θ

注：由于 $\theta $ 不确定，因此 $ E(\hat\theta)$ 实际上是一个关于 $θ$ 的函数，所以才称得上 $\forall θ \in Θ$

则称 $\hat{θ}$ 是 $θ$ 的无偏估计量

估计量的无偏性是指，对于某些样本值，由这一估计量得到的估计值相对于真值来说偏大，有些则偏小。反复将这一估计量使用多次，就“平均”来说其偏差为 0。在科学技术中， $E (\hat{θ}) - θ$ 称为以 $\hat{θ}$ 作为 $θ$ 的估计的系统误差。无偏估计的实际意义就是无系统误差

2. 有效性（最小方差性）

设 ${\hat{θ}}_{1} = {\hat{θ}}_{1} (X_{1}, X_{2}, \dots, X_{n})$ 与 ${\hat{θ}}_{2} = {\hat{θ}}_{2} (X_{1}, X_{2}, \dots, X_{n})$ 都是 $θ$ 的无偏估计量，若对于任意 $θ \in Θ$ 有

D ({\hat{θ}}_{1}) \leq D ({\hat{θ}}_{2})

且至少对于某一个 $θ \in Θ$ 上式中的不等号严格成立，则称 ${\hat{θ}}_{1}$ 较 ${\hat{θ}}_{2}$ 有效

3. 相合性（一致性）

设 $\hat{θ} (X_{1}, X_{2}, \dots, X_{n})$ 为参数 $θ$ 的估计量，若对于任意 $\theta \in \Theta $，当 $ n \to \infty$ 时 $\hat{θ} (X_{1}, X_{2}, \dots, X_{n})$ 依概率收敛于 $θ$ ，则称 $\hat{θ}$ 为 $θ$ 的相合估计量。即：

\forall θ \in Θ, \forall ε > 0, lim_{n \to \infty} P {| \hat{θ} - θ | < ε} = 1,

则称 $\hat{θ}$ 是 $θ$ 的相合估计量。

三、区间估计

1. 置信区间

设总体 $X $ 的分布函数 $ F (x; \theta)$ 含有一个未知参数 $θ$ ， $θ \in Θ$ 是 $θ$ 可能取值的范围。对于给定值 $\alpha $（$ 0 < \alpha < 1 $），若由来自 $ X$ 的样本 $X_{1}, X_{2}, \dots, X_{n}$ 确定的两个统计量 $θ_{L} = θ_{L} (X_{1}, X_{2}, \dots, X_{n})$ 和 $θ_{U} = θ_{U} (X_{1}, X_{2}, \dots, X_{n})$ （ $θ_{L} < θ_{U}$ ），对于任意 $θ \in Θ$ 满足

P {θ_{L} (X_{1}, X_{2}, \dots, X_{n}) < θ < θ_{U} (X_{1}, X_{2}, \dots, X_{n})} \geq 1 - α,

则称 $1 - α$ 为置信水平 随机区间 $(θ_{L}, θ_{U})$ 是 $θ$ 的置信水平为 $1 - α$ 的置信区间 $θ_{L}$ 和 $\theta_U $ 分别称为置信水平为 $ 1 - \alpha$ 的双侧置信区间的置信下限和置信上限

寻求未知参数 $θ$ 的置信区间的具体做法如下：

寻找枢轴量：寻求一个样本 $X_{1}, X_{2}, \dots, X_{n}$ 和 $θ$ 的函数 $W = W (X_{1}, X_{2}, \dots, X_{n}; θ)$ ，使得 $W$ 的分布不依赖于 $θ$ 以及其他未知参数。称具有这种性质的函数 $W$ 为枢轴量。
定出常数并构造置信区间：对于给定的置信水平 $1 - \alpha $，定出两个常数 $ a$ 和 $b$ 使得
$P {a < W (X_{1}, X_{2}, \dots, X_{n}; θ) < b} = 1 - α .$
若能从 $a < W (X_{1}, X_{2}, \dots, X_{n}; θ) < b$ 得到与之等价的 $θ$ 的不等式 $θ_{L} < θ < θ_{U}$ ，其中 $θ_{L} = θ_{L} (X_{1}, X_{2}, \dots, X_{n})$ 和 $θ_{U} = θ_{U} (X_{1}, X_{2}, \dots, X_{n})$ 都是统计量，那么 $(θ_{L}, θ_{U})$ 就是 $\theta $ 的一个置信水平为 $ 1 - \alpha$ 的置信区间。

2. 正态总体均值与方差的区间估计

1. 单个总体 $N (μ, σ^{2})$ 的情况

设已给定置信水平为 $1-\alpha $，并设 $ X_1,X_2,\cdots,X_n $ 为总体 $ N (\mu,\sigma^2) $的样本，$ \overline X,S^2$ 分别为样本均值和样本方差

(1) 均值 $μ$ 的置信区间

$σ^{2}$ 已知时，可使用 $\frac{\overset{―}{X} - μ}{σ / \sqrt{n}}$ 作为枢纽量， $μ$ 的一个置信水平为 $1 - α$ 的置信区间为：

(\overset{―}{X} \pm \frac{σ}{\sqrt{n}} z_{α / 2})

其中， $z_{α / 2}$ 是标准正态分布 N (0,1) 的 $α / 2$ 分位点

$σ^{2}$ 未知时，可以使用 $\frac{\overset{―}{X} - μ}{S / \sqrt{n}}$ 作为枢纽量，其中一个置信水平为 $1 - α$ 置信区间为

(\overset{―}{X} \pm \frac{S}{\sqrt{n}} t_{α / 2} (n - 1))

(2) 方差 $σ^{2}$ 的置信区间

$μ$ 未知时，$\sigma^2 $ 的置信水平为 $ 1-\alpha$ 的置信区间为：

(\frac{(n - 1) S^{2}}{χ_{α / 2}^{2} (n - 1)}, \frac{(n - 1) S^{2}}{χ_{1 - α / 2}^{2} (n - 1)})

2. 两个总体 $N (μ_{1}, σ_{1}^{2}), N (μ_{2}, σ_{2}^{2})$ 的情况

设两个总体的样本分别为 ${X_{1}, X_{2}, \dots, X_{n_{1}}}, {X_{1}, X_{2}, \dots, X_{n_{2}}}$

(1) $μ_{1} - μ_{2}$ 的置信区间

在 $σ_{1}^{2}, σ_{2}^{2}$ 已知的情况下，$\mu_1-\mu_2 $ 的一个置信水平为 $ 1-\alpha$ 的置信区间

(\overset{―}{X} - \overset{―}{Y} \pm z_{α / 2} \sqrt{\frac{σ_{1}^{2}}{n_{1}} + \frac{σ_{2}^{2}}{n_{2}}})

$σ_{1}^{2} = σ_{2}^{2} = σ^{2}$ ，但 $σ$ 未知的情况下， $μ_{1} - μ_{2}$ 的一个置信水平为 $1 - α$ 的置信区间

(\overset{―}{X} - \overset{―}{Y} \pm t_{α / 2} (n_{1} + n_{2} - 2) S_{w} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}}) S_{w}^{2} = \frac{(n_{1} - 1) S_{1}^{2} + (n_{2} - 1) S_{2}^{2}}{n_{1} + n_{2} - 2}, S_{w} = \sqrt{S_{w}^{2}}

(2) $σ_{1}^{2} / σ_{2}^{2}$ 的置信区间

$μ_{1}, μ_{2}$ 未知时，$\sigma_1^2/\sigma_2^2 $ 的一个置信水平为 $ 1-\alpha$ 的置信区间

\frac{S_{1}^{2}}{S_{2}^{2}} \frac{1}{F_{α / 2} (n_{1} - 1, n_{2} - 1)}, \frac{S_{1}^{2}}{S_{2}^{2}} \frac{1}{F_{1 - α / 2} (n_{1} - 1, n_{2} - 1)}

大题解题套路

最大似然估计（MLE）

写似然函数 $L = \prod f (x_{i}; θ)$
取对数 $\ln L$
对 $θ$ 求导令 $= 0$ ，解出 $\hat{θ}$
检验无偏性： $E (\hat{θ}) = θ$ ？

矩估计

令 $E (X) = g (θ)$ ，用 $\bar{X} = g (\hat{θ})$ 解出 $\hat{θ}$
若有两个参数：再用 $E (X^{2}) = h (θ_{1}, θ_{2})$ ，令 $A_{2} = h ({\hat{θ}}_{1}, {\hat{θ}}_{2})$ ，联立解方程组

易错辨析

易错表述	正确理解
"$S^2 $ 除以 $ n$"	❌ 样本方差除以 n-1（为了无偏）
"MLE 一定无偏"	❌ MLE 不一定是无偏估计
"频率等于概率"	❌ 频率依概率收敛于概率（大数定律）
"$D(X)=0 $ 则 $ X$ 为常数"	✅ $D (X) = 0 \Leftrightarrow P (X = E (X)) = 1$

数理统计·2 参数估计 ​

考纲内容 ​

一、点估计 ​

1. 矩估计法 ​

2. 最大似然估计法 ​

1. 离散型总体的最大似然估计量 ​

2. 连续型总体的最大似然估计量 ​

3. 最大似然估计量求解最大值 ​

二、估计量的评选标准 ​

1. 无偏性 ​

2. 有效性（最小方差性） ​

3. 相合性（一致性） ​

三、区间估计 ​

1. 置信区间 ​

2. 正态总体均值与方差的区间估计 ​

1. 单个总体 N(μ,σ2) 的情况 ​

(1) 均值 μ 的置信区间 ​

(2) 方差 σ2 的置信区间 ​

2. 两个总体 N(μ1,σ12),N(μ2,σ22) 的情况 ​

(1) μ1−μ2 的置信区间 ​

(2) σ12/σ22 的置信区间 ​

大题解题套路 ​

最大似然估计（MLE） ​

矩估计 ​

易错辨析 ​