3.5 统计初步
本章系统阐述统计推断理论基础,涵盖大数定律、抽样分布、参数估计与假设检验等核心内容。以下从六个核心考点系统梳理知识体系:
考点一:大数定律与中心极限定理
1. 大数定律
- 切比雪夫不等式:
设随机变量 X X X 的数学期望 E ( X ) = μ E(X)=mu E(X)=μ,方差 D ( X ) = σ 2 D(X)=sigma^2 D(X)=σ2,则对任意 ε > 0 arepsilon>0 ε>0:
P { ∣ X − μ ∣ ≥ ε } ≤ σ 2 ε 2 P{|X-mu| geq arepsilon} leq rac{sigma^2}{arepsilon^2} P{∣X−μ∣≥ε}≤ε2σ2 - 辛钦大数定律:
设独立同分布序列 { X n } {X_n} {Xn} 满足 E ( X i ) = μ E(X_i)=mu E(Xi)=μ,则对任意 ε > 0 arepsilon>0 ε>0:
lim n → ∞ P { ∣ 1 n ∑ k = 1 n X k − μ ∣ < ε } = 1 lim_{n o infty} Pleft{ left| rac{1}{n}sum_{k=1}^n X_k - mu ight| < arepsilon ight} = 1 n→∞limP{ n1k=1∑nXk−μ <ε}=1
核心思想:大量样本的平均值具有稳定性,依概念收敛于理论均值。
2. 中心极限定理
设独立同分布序列
{
X
n
}
{X_n}
{Xn} 满足
E
(
X
i
)
=
μ
E(X_i)=mu
E(Xi)=μ,
D
(
X
i
)
=
σ
2
D(X_i)=sigma^2
D(Xi)=σ2,则:
lim
n
→
∞
P
{
∑
k
=
1
n
X
k
−
n
μ
σ
n
≤
x
}
=
Φ
(
x
)
lim_{n o infty} Pleft{ rac{sum_{k=1}^n X_k - nmu}{sigmasqrt{n}} leq x
ight} = Phi(x)
n→∞limP{σn∑k=1nXk−nμ≤x}=Φ(x)
核心思想:大量样本和 ∑ X k sum X_k ∑Xk 近似服从正态分布 N ( n μ , n σ 2 ) N(nmu, nsigma^2) N(nμ,nσ2)。
考点二:抽样分布
1. 统计量定义
- 样本均值: X ˉ = 1 n ∑ i = 1 n X i ar{X} = rac{1}{n}sum_{i=1}^n X_i Xˉ=n1∑i=1nXi
- 样本方差: S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^2 = rac{1}{n-1}sum_{i=1}^n (X_i - ar{X})^2 S2=n−11∑i=1n(Xi−Xˉ)2
- 次序统计量: X ( 1 ) = min ( X i ) , X ( n ) = max ( X i ) X_{(1)} = min(X_i), X_{(n)} = max(X_i) X(1)=min(Xi), X(n)=max(Xi)
2. 三大抽样分布
分布类型 | 定义 | 重要性质 |
---|---|---|
χ 2 chi^2 χ2分布 | X 1 , . . . , X n ∼ N ( 0 , 1 ) X_1,...,X_n sim N(0,1) X1,...,Xn∼N(0,1),则 ∑ i = 1 n X i 2 ∼ χ 2 ( n ) sum_{i=1}^n X_i^2 sim chi^2(n) ∑i=1nXi2∼χ2(n) | 可加性(独立): χ 2 ( n 1 ) + χ 2 ( n 2 ) ∼ χ 2 ( n 1 + n 2 ) chi^2(n_1) + chi^2(n_2) sim chi^2(n_1+n_2) χ2(n1)+χ2(n2)∼χ2(n1+n2) |
t t t分布 | X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) X sim N(0,1), Y sim chi^2(n) X∼N(0,1), Y∼χ2(n),则 t = X Y / n ∼ t ( n ) t = rac{X}{sqrt{Y/n}} sim t(n) t=Y/nX∼t(n) | 对称性: t 1 − α ( n ) = − t α ( n ) t_{1-lpha}(n) = -t_{lpha}(n) t1−α(n)=−tα(n) |
F F F分布 | U ∼ χ 2 ( m ) , V ∼ χ 2 ( n ) U sim chi^2(m), V sim chi^2(n) U∼χ2(m), V∼χ2(n),则 F = U / m V / n ∼ F ( m , n ) F = rac{U/m}{V/n} sim F(m,n) F=V/nU/m∼F(m,n) | 倒数性质: F 1 − α ( m , n ) = 1 F α ( n , m ) F_{1-lpha}(m,n) = rac{1}{F_{lpha}(n,m)} F1−α(m,n)=Fα(n,m)1 |
3. 正态总体下的抽样分布
设 X 1 , . . . , X n ∼ N ( μ , σ 2 ) X_1,...,X_n sim N(mu,sigma^2) X1,...,Xn∼N(μ,σ2),则:
- X ˉ ∼ N ( μ , σ 2 n ) ar{X} sim Nleft(mu, rac{sigma^2}{n} ight) Xˉ∼N(μ,nσ2),标准化得 U = X ˉ − μ σ / n ∼ N ( 0 , 1 ) U = rac{ar{X}-mu}{sigma/sqrt{n}} sim N(0,1) U=σ/nXˉ−μ∼N(0,1)
- ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) rac{(n-1)S^2}{sigma^2} sim chi^2(n-1) σ2(n−1)S2∼χ2(n−1),且 X ˉ ar{X} Xˉ 与 S 2 S^2 S2 独立
- T = X ˉ − μ S / n ∼ t ( n − 1 ) T = rac{ar{X}-mu}{S/sqrt{n}} sim t(n-1) T=S/nXˉ−μ∼t(n−1)
- χ 2 = 1 σ 2 ∑ i = 1 n ( X i − μ ) 2 ∼ χ 2 ( n ) chi^2 = rac{1}{sigma^2}sum_{i=1}^n (X_i - mu)^2 sim chi^2(n) χ2=σ21∑i=1n(Xi−μ)2∼χ2(n)
考点三:统计量的数字特征
统计量 | 期望 | 方差 |
---|---|---|
样本均值 X ˉ ar{X} Xˉ | E ( X ˉ ) = μ E(ar{X}) = mu E(Xˉ)=μ | D ( X ˉ ) = σ 2 n D(ar{X}) = rac{sigma^2}{n} D(Xˉ)=nσ2 |
样本方差 S 2 S^2 S2 | E ( S 2 ) = σ 2 E(S^2) = sigma^2 E(S2)=σ2 | D ( S 2 ) = 2 σ 4 n − 1 D(S^2) = rac{2sigma^4}{n-1} D(S2)=n−12σ4 |
样本协方差 S X Y S_{XY} SXY | E ( S X Y ) = Cov ( X , Y ) E(S_{XY}) = ext{Cov}(X,Y) E(SXY)=Cov(X,Y) | 复杂表达式需特殊计算 |
考点四:参数估计
1. 矩估计法
- 核心思想:用样本矩估计总体矩
1 n ∑ i = 1 n X i k → E ( X k ) rac{1}{n}sum_{i=1}^n X_i^k o E(X^k) n1i=1∑nXik→E(Xk) - 步骤:
- 建立方程 μ ^ k = E ( X k ) hat{mu}_k = E(X^k) μ^k=E(Xk)
- 解方程得参数估计量
2. 最大似然估计
- 似然函数:
离散型: L ( θ ) = ∏ i = 1 n P ( X i ; θ ) L( heta) = prod_{i=1}^n P(X_i; heta) L(θ)=∏i=1nP(Xi;θ)
连续型: L ( θ ) = ∏ i = 1 n f ( X i ; θ ) L( heta) = prod_{i=1}^n f(X_i; heta) L(θ)=∏i=1nf(Xi;θ) - 求解步骤:
- 取对数 ln L ( θ ) ln L( heta) lnL(θ)
- 对 θ heta θ 求导并令导数为零
- 解方程得 θ ^ M L E hat{ heta}_{MLE} θ^MLE
考点五:估计量的评选标准
标准 | 数学定义 | 判定方法 |
---|---|---|
无偏性 | E ( θ ^ ) = θ E(hat{ heta}) = heta E(θ^)=θ | 计算期望验证等式成立 |
有效性 | D ( θ ^ 1 ) < D ( θ ^ 2 ) D(hat{ heta}_1) < D(hat{ heta}_2) D(θ^1)<D(θ^2) | 比较方差大小 |
一致性 | lim n → ∞ P ( ∣ θ ^ − θ ∣ ≥ ε ) = 0 lim_{n o infty} P(|hat{ heta}- heta| geq arepsilon) = 0 limn→∞P(∣θ^−θ∣≥ε)=0 | 应用大数定律或切比雪夫不等式 |
考点六:区间估计与假设检验
1. 区间估计
- 步骤:
- 构造枢轴量 T ( X , θ ) T(X, heta) T(X,θ)(如 U = X ˉ − μ σ / n U = rac{ar{X}-mu}{sigma/sqrt{n}} U=σ/nXˉ−μ)
- 确定置信区间 P ( a < T < b ) = 1 − α P(a < T < b) = 1-lpha P(a<T<b)=1−α
- 反解得到 θ heta θ 的区间估计
正态总体均值区间估计:
- σ 2 sigma^2 σ2 已知: μ ∈ ( X ˉ ± z α / 2 σ n ) mu in left( ar{X} pm z_{lpha/2} rac{sigma}{sqrt{n}} ight) μ∈(Xˉ±zα/2nσ)
- σ 2 sigma^2 σ2 未知: μ ∈ ( X ˉ ± t α / 2 ( n − 1 ) S n ) mu in left( ar{X} pm t_{lpha/2}(n-1) rac{S}{sqrt{n}} ight) μ∈(Xˉ±tα/2(n−1)nS)
2. 假设检验
-
两类错误:
错误类型 概率符号 发生条件 第一类错误 α lpha α H 0 H_0 H0 为真但被拒绝(弃真) 第二类错误 β eta β H 0 H_0 H0 为假但被接受(存伪) -
检验步骤:
- 建立原假设 H 0 H_0 H0 与备择假设 H 1 H_1 H1
- 确定检验统计量及其分布
- 给定显著性水平 α lpha α,确定拒绝域
- 根据样本计算统计量值,判断是否拒绝 H 0 H_0 H0
总结
本章重点掌握:
- 大数定律与中心极限定理的理论联系与区别
- 三大抽样分布的定义与正态总体的抽样分布性质
- 参数估计的双重方法(矩估计与极大似然估计)
- 假设检验的逻辑框架与两类错误的实际意义