数理统计·1 数理统计的基本概念

考纲内容

总体、个体、简单随机样本、统计量、样本均值、样本方差、样本矩
$\chi^2 $ 分布，$ t$ 分布， $F$ 分布，分位数，正态总体的常用抽样分布

脑图

mermaid

graph TD
A["简单随机样本"]---|不含未知参数的函数|B["统计量"]
B-->C["常用统计量：<br>样本平均值<br>样本方差<br>样本标准差<br>样本 k 阶原点矩<br>样本 k 阶中心矩"]
B-->D["经验分布函数"]
B-->E["χ2 分布"]
B-->T["t 分布"]
B-->F["F 分布"]
N["正态总体的统计量性质"]---B

一、随机样本

1. 随机样本诸概念的定义

在数理统计中，我们通常研究某个对象的特定数量指标。例如，研究某种型号灯泡的寿命。为此，我们会进行与这一数量指标相关的随机试验。这些试验的结果值不一定都相同，且其数量也不一定是有限的。

每一个可能的观察值称为个体。
总体中包含的所有个体的总数称为总体的容量。

根据容量的大小，可以将总体分为：

有限总体：容量有限的总体。
无限总体：容量无限的总体。

设 $X $ 是具有分布函数 $ F$ 的随机变量。若 $X_1, X_2, \cdots, X_n $ 是具有相同分布函数 $ F$ 的、相互独立的随机变量则称 $X_1, X_2, \cdots, X_n $ 为从分布函数 $ F$（或总体 $F$ ，或总体 $X $）得到的容量为 $ n$ 的简单随机样本，简称样本它们的观察值 $x_{1}, x_{2}, \dots, x_{n}$ 称为 样本值，又称为 $X $ 的 $ n$ 个独立的观察值。

2. 分位数

定义设有容量为 $n $ 的样本观察值 $ x_1, x_2, \cdots, x_n $，样本 $ p$ 分位数 ( $0 < p < 1$ ) 记为 $x_{p}$ ，它具有以下的性质：

至少有 np 个观察值小于或等于 $x_{p}$
至少有 n (1-p) 个观察值大于或等于 $x_{p}$

显然， $p = \frac{1}{2}$ 时，就是我们熟悉的中位数

样本 $p$ 分位数可按以下法则求得：

首先，将 $x_{1}, x_{2}, \dots, x_{n}$ 按自小到大的次序排列成 $x_{(1)} \leq x_{(2)} \leq \dots \leq x_{(n)}$ 。

若 np 不是整数，则只有一个数据满足定义中的两点要求，这一数据位于大于 np 的最小整数处，即为位于 $[np] + 1 $ 处的数。例如，$ n = 12 $，$ p = 0.9 $，则 $ np = 10.8 $，$ n (1 - p) = 1.2 $。则 $ x_p$ 的位置应满足至少有 10.8 个数据$\leq x_p $（$ x_p$ 应位于第 11 或大于第 11 处）；且至少有 1.2 个数据 $\geq x_{p}$ （ $x_{p}$ 应位于第 11 或小于第 11 处），故 $x_{p}$ 应位于第 11 处。
若 np 是整数。例如在 $n = 20 $，$ p = 0.95 $ 时，$ x_p$ 的位置应满足至少有 19 个数据 $\leq x_p $（$ x_p$ 应位于第 19 或大于第 19 处）且至少有 1 个数据 $\geq x_{p}$ （ $x_{p}$ 应位于第 19 或小于第 19 处）。此时，取第 19 和第 20 这两个数据的平均值作为 $x_{p}$

综上，

x_{p} = {\begin{cases} x_{([n p] + 1)}, & 当 n p 不是整数 \\ \frac{1}{2} [x_{(n p)} + x_{(n p + 1)}], & 当 n p 是整数 \end{cases}

特别，当 $p = 0.5 $ 时，0.5 分位数 $ x_{0.5}$ 也记为 $Q_2 $ 或 $ M$，称为样本中位数，即有

x_{0.5} = {\begin{cases} x_{[\frac{n}{2}] + 1}, & 当 n 是奇数 \\ \frac{1}{2} [x_{(\frac{n}{2})} + x_{(\frac{n}{2} + 1)}], & 当 n 是偶数 \end{cases}

易知，当 $n $ 是奇数时，中位数 $ x_{0.5}$ 就是 $x_{(1)} \leq x_{(2)} \leq \dots \leq x_{(n)}$ 这一数组最中间的一个数；而当 $n $ 是偶数时，中位数 $ x_{0.5}$ 就是 $x_{(1)} \leq x_{(2)} \leq \dots \leq x_{(n)}$ 这一数组中最中间两个数的平均值。

0.25 分位数 $x_{0.25}$ 称为第一四分位数，又记为 $Q_1 $；0.75 分位数 $ x_{0.75}$ 称为第三四分位数，又记为 $Q_3 $。 $ x_{0.25}, x_{0.5}, x_{0.75}$ 在统计中是很有用的

三、抽样分布

1. 统计量

1. 统计量的定义

定义：设 $X_1, X_2, \cdots, X_n $ 是来自总体 $ X$ 的一个样本， $g (X_{1}, X_{2}, \dots, X_{n})$ 是 $X_1, X_2, \cdots, X_n $ 的函数，若 $ g$ 中不含未知参数，则称 $g (X_{1}, X_{2}, \dots, X_{n})$ 是一统计量。因为 $X_1, X_2, \cdots, X_n $ 都是随机变量，而统计量 $ g (X_1, X_2, \cdots, X_n)$ 是随机变量的函数，因此统计量是一个随机变量。设 $x_{1}, x_{2}, \dots, x_{n}$ 是相应于样本 $X_1, X_2, \cdots, X_n $ 的样本值，则称 $ g (x_1, x_2, \cdots, x_n)$ 是 $g (X_{1}, X_{2}, \dots, X_{n})$ 的观察值。

2. 常用的统计量及其观察值

下面列出几个常用的统计量及其观察值。设 $X_1, X_2, \cdots, X_n $ 是来自总体 $ X $的一个样本，$ x_1, x_2, \cdots, x_n$ 是这一样本的观察值。

样本平均值

\overset{―}{X} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}, \overset{―}{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}

样本方差

S^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \overset{―}{X})^{2} = \frac{1}{n - 1} (\sum_{i = 1}^{n} X_{i}^{2} - n {\overset{―}{X}}^{2}) S^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \overset{―}{x})^{2} = \frac{1}{n - 1} (\sum_{i = 1}^{n} x_{i}^{2} - n {\overset{―}{x}}^{2})

样本标准差

S = \sqrt{S^{2}} = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \overset{―}{X})^{2}} S = \sqrt{S^{2}} = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \overset{―}{x})^{2}}

样本 $k$ 阶（原点）矩

A_{k} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}^{k}, k = 1, 2, \dots A_{k} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}^{k}, k = 1, 2, \dots

样本 $k$ 阶中心矩

B_{k} = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} - \overset{―}{X})^{k}, k = 2, 3, \dots B_{k} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \overset{―}{x})^{k}, k = 2, 3, \dots

3. 经验分布函数

我们还可以作出与总体分布函数 F (x) 相应的统计量——经验分布函数。它的作法如下：

设 $X_1, X_2, \ldots, X_n $ 是总体 $ F$ 的一个样本，用 S (x) 表示 $X_1, X_2, \ldots, X_n $ 中不大于 $ x$ 的随机变量的个数。定义经验分布函数 $F_{n} (x)$ 为：

F_{n} (x) = \frac{1}{n} S (x), - \infty < x < \infty

对于一个样本值，经验分布函数 $F_{n} (x)$ 的观察值是很容易得到的（ $F_{n} (x)$ 的观察值仍以 $F_{n} (x)$ 表示）。例如：

设总体 $F $ 具有一个样本值 $ 1, 2, 3 $，则经验分布函数 $ F_3 (x)$ 的观察值为：

F_{3} (x) = {\begin{cases} 0, & 若 x < 1, \\ \frac{1}{3}, & 若 1 \leq x < 2, \\ \frac{2}{3}, & 若 2 \leq x < 3, \\ 1, & 若 x \geq 3 \end{cases}

设总体 $F $ 具有一个样本值 $ 1, 2, 2 $，则经验分布函数 $ F_3 (x)$ 的观察值为：

F_{3} (x) = {\begin{cases} 0, & 若 x < 1, \\ \frac{1}{3}, & 若 1 \leq x < 2, \\ 1, & 若 x \geq 2 \end{cases}

一般，设 $x_1, x_2, \ldots, x_n $ 是总体 $ F$ 的一个容量为 $n $ 的样本值。先将 $ x_1, x_2, \ldots, x_n$ 按自小到大的次序排列，并重新编号，设为 $x_{(1)} \leq x_{(2)} \leq \dots \leq x_{(n)}$ 。则经验分布函数 $F_{n} (x)$ 的观察值为：

F_{n} (x) = {\begin{cases} 0, & 若 x < x_{(1)}, \\ \frac{k}{n}, & 若 x_{(k)} \leq x < x_{(k + 1)}, \\ 1, & 若 x \geq x_{(n)} \end{cases}

对于经验分布函数 $F_{n} (x)$ ，格里汶科（Glivenko）在1933年证明了以下的结果：对于任一实数 $x$ ，当 $n \to \infty $ 时，$ F_n (x)$ 以概率1一致收敛于分布函数 F (x) ，即

P (lim_{n \to \infty} sup | F_{n} (x) - F (x) | = 0) = 1

因此，对于任一实数 $x $，当 $ n$ 充分大时，经验分布函数的任一个观察值 $F_{n} (x)$ 与总体分布函数 F (x) 只有微小的差别，从而在实际上可当作 F (x) 来使用。

这里的 $sup$ 是“上确界”（supremum）的缩写。在数学中，给定一个集合 $S$ ，该集合的上确界是所有上界中最小的一个。换句话说，$\sup S $ 是 $ S$ 的最小上界。
在这种情况下， $sup | F_{n} (x) - F (x) |$ 表示在所有 $x$ 上， $| F_{n} (x) - F (x) |$ 的最大值。这个值用于描述 $F_{n} (x)$ 和 F(x) 之间的最大差异。因此，整个表达式 $lim_{n \to \infty} sup | F_{n} (x) - F (x) | = 0$ 意味着当样本量 $n $ 趋于无穷大时，经验分布函数 $ F_n(x)$ 与总体分布函数 F(x) 的最大差异趋于零。

2. 常用的抽样分布统计量

考纲摘要：了解 $\chi^2 $ 分布、$ t$ 分布和 $F $ 分布的概念及性质，了解上侧 $ a$ 分位数的概念并会查表计算

1. $χ^{2}$ 分布

设 $X_{1}, X_{2}, \dots, X_{n}$ 是来自总体 N (0,1) 的样本，则称统计量

χ^{2} = X_{1}^{2} + X_{2}^{2} + \dots + X_{n}^{2}

为服从自由度为 $n$ 的 $χ^{2}$ 分布，记作 $χ^{2} \sim χ^{2} (n)$

$χ^{2} (n)$ 分布的概率密度为

f (y) = {\begin{cases} \frac{1}{2^{n / 2} Γ (n / 2)} y^{n / 2 - 1} e^{- y / 2}, & y > 0 \\ 0, & y \leq 0 \end{cases}

其图像如下所示：

$χ^{2}$ 分布的可加性：设 $χ_{1}^{2} \sim χ^{2} (n_{1}), χ_{2}^{2} \sim χ^{2} (n_{2})$ ，且 $χ_{1}^{2}, χ_{2}^{2}$ 相互独立，则有 $χ_{1}^{2} + χ_{2}^{2} \sim χ^{2} (n_{1} + n_{2})$

$χ^{2}$ 分布的数学期望和方差：对于 $χ^{2} \sim χ^{2} (n)$ ， $E (χ^{2}) = n, D (χ^{2}) = 2 n$

$\chi^2 $ 分布的分位点：对于给定的 $ 0<\alpha<1$，称满足条件

P {χ^{2} > χ_{α}^{2} (n)} = \int_{χ_{α}^{2} (n)}^{\infty} f (y) d y = α

的点 $χ_{α}^{2} (n)$ 为 $χ^{2} (n)$ 上的 $α$ 分位点，求法如下：

$n$ 在 40 及以下时，查表
$n$ 充分大时，近似的有 $\chi_\alpha^2 (n)\approx\cfrac12 (z_\alpha+\sqrt{2n-1})^2 $，在 $ n>40$ 时可采用该近似式

$χ_{α}^{2} (n)$ 应该是一个与 $α, n$ 有关的常数

2. $t$ 分布

设 $X \sim N (0, 1), Y \sim χ^{2} (n)$ ，且 X,Y 相互独立，则称随机变量

t = \frac{X}{\sqrt{Y / n}}

为服从自由度为 $n $ 的 $ t$ 分布，记作 $t \sim t (n)$ ，它也称作学生氏分布，其概率密度函数为：

h (t) = \frac{Γ [(n + 1) / 2]}{\sqrt{π n} Γ (n / 2)} (1 + \frac{t^{2}}{n})^{- (n + 1) / 2}, t \in \R

其图像如下所示：

$t $ 分布概率密度函数的图像是关于 $ t=0$ 轴对称的。此外，由于

lim_{n \to \infty} h (t) = \frac{1}{\sqrt{2 π}} e^{- t^{2} / 2}

也就是说，当 $n $ 足够大时，$ t$ 分布的近似于 N (0,1) 分布

$t $ 分布的分位点：对于给定的 $ 0<\alpha<1$，称满足条件

P {t > t_{α} (n)} = \int_{t_{α} (n)}^{\infty} h (t) d t = α

的点 $t_{α} (n)$ 为 t (n) 分布上的 $\alpha $ 分位点由于 $ t$ 分布图像的对称性，可知 $t_{1 - α} (n) = - t_{α} (n)$ 。该分布的分位点也可以通过查表来求解

3. $F$ 分布

设 $U \sim χ^{2} (n_{1}), V \sim χ^{2} (n_{2})$ 且相互独立，则称随机变量 $F = \frac{U / n_{1}}{V / n_{2}}$ 为服从自由度为 $(n_{1}, n_{2})$ 的 $F $ 分布，记作 $ F\sim F (n_1,n_2) $，由定义知：$ \cfrac1F\sim F (n_2,n_1)$

其概率密度为：

ψ (y) = {\begin{cases} \frac{Γ [(n_{1} + n_{2}) / 2] (n_{1} / n_{2})^{n_{1} / 2} y^{(n_{1} / 2) - 1}}{Γ (n_{1} / 2) Γ (n_{2} / 2) [1 + (n_{1} y / n_{2})]^{(n_{1} + n_{2}) / 2}}, & y > 0 \\ 0, & y \leq 0 \end{cases}

其图像如下：

$F $ 分布的分位点，对于给定的 $ 0<\alpha<1$，称满足条件

P {F > F_{a} (n_{1}, n_{2})} = \int_{F_{a} (n_{1}, n_{2})}^{\infty} ψ (y) d y = α

的点 $F_{a} (n_{1}, n_{2})$ 为 $F (n_{1}, n_{2})$ 分布上的 $α$ 分位点，求法亦是查表。它有以下性质：

F_{1 - α} (n_{1}, n_{2}) = \frac{1}{F_{α} (n_{2}, n_{1})}

4. 正态总体的样本均值与样本方差的分布

考纲摘要：了解正态总体的常用抽样分布

设总体 $X$ （无论其服从什么分布，只要存在数学期望和方差）的数学期望为 $μ$ ，方差为 $σ^{2}$ ，$ X_1,X_2,\cdots,X_n $是来自 $ X$ 的一个样本， $\overset{―}{X}, S^{2}$ 分别是样本均值和样本方差，则有：

E (\overset{―}{X}) = μ, D (\overset{―}{X}) = \frac{σ^{2}}{n}, E (S^{2}) = σ^{2}

当 $X \sim N (μ, σ^{2})$ 时存在以下定理：

(1) 定理一

设 $X_1, X_2, \ldots, X_n $ 是来自正态总体 $ N (\mu, \sigma^2)$ 的样本，样本均值为 $\overset{―}{X}$ ，则有

\overset{―}{X} \sim N (μ, \frac{σ^{2}}{n})

(2) 定理二

设 $X_1, X_2, \ldots, X_n $ 是来自总体 $ N (\mu, \sigma^2)$ 的样本， $\overset{―}{X}$ 和 $S^{2}$ 分别是样本均值和样本方差，则有

\frac{(n - 1) S^{2}}{σ^{2}} \sim χ^{2} (n - 1)

并且 $\overset{―}{X}$ 与 $S^{2}$ 相互独立。

(3) 定理三

设 $X_1, X_2, \ldots, X_n $ 是来自总体 $ N (\mu, \sigma^2)$ 的样本， $\overset{―}{X}$ 和 $S^{2}$ 分别是样本均值和样本方差，则有

\frac{\overset{―}{X} - μ}{S / \sqrt{n}} \sim t (n - 1)

(4) 定理四

设 $X_{1}, X_{2}, \dots, X_{n_{1}}$ 和 $Y_{1}, Y_{2}, \dots, Y_{n_{2}}$ 分别是来自正态总体 $N (μ_{1}, σ_{1}^{2})$ 和 $N (μ_{2}, σ_{2}^{2})$ 的样本，且这两个样本相互独立。设

\overset{―}{X} = \frac{1}{n_{1}} \sum_{i = 1}^{n_{1}} X_{i}, \overset{―}{Y} = \frac{1}{n_{2}} \sum_{i = 1}^{n_{2}} Y_{i}

分别是这两个样本的样本均值；并且

S_{1}^{2} = \frac{1}{n_{1} - 1} \sum_{i = 1}^{n_{1}} (X_{i} - \overset{―}{X})^{2}, S_{2}^{2} = \frac{1}{n_{2} - 1} \sum_{i = 1}^{n_{2}} (Y_{i} - \overset{―}{Y})^{2}

分别是这两个样本的样本方差，则有

\frac{S_{1}^{2}}{S_{2}^{2}} \sim F (n_{1} - 1, n_{2} - 1)

当 $σ_{1}^{2} = σ_{2}^{2} = σ^{2}$ 时，有

\frac{(\overset{―}{X} - \overset{―}{Y}) - (μ_{1} - μ_{2})}{S_{w} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}}} \sim t (n_{1} + n_{2} - 2)

其中

S_{w}^{2} = \frac{(n_{1} - 1) S_{1}^{2} + (n_{2} - 1) S_{2}^{2}}{n_{1} + n_{2} - 2}, S_{w} = \sqrt{S_{w}^{2}}

数理统计·1 数理统计的基本概念 ​

考纲内容 ​

脑图 ​

一、随机样本 ​

1. 随机样本诸概念的定义 ​

2. 分位数 ​

三、抽样分布 ​

1. 统计量 ​

1. 统计量的定义 ​

2. 常用的统计量及其观察值 ​

3. 经验分布函数 ​

2. 常用的抽样分布统计量 ​

1. χ2 分布 ​

2. t 分布 ​

3. F 分布 ​

4. 正态总体的样本均值与样本方差的分布 ​

(1) 定理一 ​

(2) 定理二 ​

(3) 定理三 ​

(4) 定理四 ​