第二章 随机变量及其分布
2.1 随机变量的概念
随机变量的定义
随机变量是将样本空间中的每个样本点映射到实数的函数。设 E 为随机试验,(\Omega, \mathcal{F}, P) 为其概率空间,则随机变量 X 是定义在 \Omega 上的实值函数:
满足对任意实数 x,集合 \{\omega : X(\omega) \leq x\} 都属于 \sigma-代数 \mathcal{F}。
引例:掷一枚均匀硬币 5 次,样本空间为:
定义 X(\omega) 为正面朝上的次数,则 X 是随机变量。
案例 1:考查某超市的支付方式,样本空间 \Omega = \{现金支付, 微信支付, 支付宝\},其中现金支付占 20%,微信支付占 45%,支付宝支付占 35%。定义:
则 X 是 (\Omega, \mathcal{F}, P) 上的随机变量。
随机变量的分类
- 离散型随机变量:可能取值为有限个或可列无穷多个
- 非离散型随机变量:其中最重要类型为连续型随机变量
本课程主要讨论离散型与连续型随机变量。
分布函数的定义
设 X 为 (\Omega, \mathcal{F}, P) 上的随机变量,对每个实数 x,定义:
称 F(x) 为随机变量 X 的分布函数。
案例 1(续):在超市支付案例中,求 X 的分布函数。
解答:
由定义 F(x) = P(X \leq x),结合概率分布:
- 当 x < 0 时,P(X \leq x) = 0
- 当 0 \leq x < 1 时,P(X \leq x) = P(X = 0) = 0.2
- 当 1 \leq x < 2 时,P(X \leq x) = P(X = 0) + P(X = 1) = 0.2 + 0.45 = 0.65
- 当 x \geq 2 时,P(X \leq x) = 1
因此:
分布函数的性质
-
单调性:\forall x_1 < x_2,有 F(x_1) \leq F(x_2)
-
右连续性:\lim_{\varepsilon \to 0^+} F(x + \varepsilon) = F(x)
-
极限性质:
\lim_{x \to -\infty} F(x) = 0, \quad \lim_{x \to +\infty} F(x) = 1且 0 \leq F(x) \leq 1 对所有 x 成立
重要结论:任意函数 G(x) 满足上述三条性质,均可作为某个随机变量的分布函数。
分布函数的概率计算
设随机变量 X 的分布函数为 F(x),则对任意 a < b:
其中 F(x-0) = \lim_{\varepsilon \to 0^+} F(x - \varepsilon) 表示左极限。
2.2 离散型随机变量及其分布
离散型随机变量的定义
设随机变量 X 的可能取值为有限多个或可列无穷多个,则称 X 为离散型随机变量。
分布列(分布律)
设 X 的可能取值为 x_1, x_2, \dots,则其概率分布可表示为:
| X | x_1 | x_2 | \cdots | x_k | \cdots |
|---|---|---|---|---|---|
| P | p_1 | p_2 | \cdots | p_k | \cdots |
其中 P(X = x_k) = p_k 称为分布列或分布律,满足:
- p_k \geq 0, k = 1, 2, \dots
- \sum_{k} p_k = 1
重要性质:任意给定 p_k 满足上述两条性质,均可作为分布律。
分布函数与分布列的关系
对于离散型随机变量:
且在 X 的可能取值 x_k 处:
分布函数 F(x) 是分段阶梯函数,在 x_k 处有跳跃间断点,跃度为 p_k。
常见离散分布
(1) 0-1 分布(两点分布)
设随机变量 X 的分布律为:
| X | 0 | 1 |
|---|---|---|
| P | q | p |
其中 p + q = 1,0 < p < 1,则称 X 服从参数为 p 的 0-1 分布,记作 X \sim B(1, p)。
其分布律可写为:
应用场景:抛硬币、新生儿性别、设备故障检测等只有两种结果的试验。
(2) 二项分布
设 n 重伯努利试验中,事件 A 发生的概率为 P(A) = p (0 < p < 1),X 表示 A 发生的次数,则 X 服从参数为 n, p 的二项分布,记作 X \sim B(n, p),其分布律为:
其中 C_n^k = \binom{n}{k} 为组合数。
注:0-1 分布是 n = 1 时的特例。
二项分布的特性:
- 当 (n+1)p 为整数时,在 k = (n+1)p 或 k = (n+1)p - 1 处概率取得最大值
- 当 (n+1)p 非整数时,在 k = \lfloor (n+1)p \rfloor 处概率最大
- 固定 p 时,随着 n 增大,分布趋于对称
例题 1(几何分布):独立重复进行某随机试验,每次成功概率为 p,设 X 为首次成功所需的试验次数。求 X 的分布列。
解答:
X 的可能取值为 1, 2, 3, \dots,事件 \{X = k\} 表示前 k-1 次失败且第 k 次成功,因此:
故 X 服从几何分布。
案例 2:某网络游戏中击杀怪物可能掉落装备 A_1 或 A_2(概率各 10%)或不掉落(80%)。收集齐 A_1 和 A_2 各一件可合成套装。设 X 为合成一件套装所需击杀次数,求 X 的分布列。
解答:
X 的可能取值为 2, 3, 4, \dots。事件 \{X = n\} 表示:
- 前 n-1 次中只掉落一种装备(且至少掉落一次),且第 n 次掉落缺失的装备。
设 B 为前 n-1 次只掉落 A_1 的事件,则:
同理,前 n-1 次只掉落 A_2 的概率也为 (0.9)^{n-1} - (0.8)^{n-1}。
第 n 次掉落缺失装备的概率为 0.1,因此:
(3) 泊松分布
泊松定理:若 \lim_{n \to \infty} np_n = \lambda > 0,则对固定 k = 0, 1, 2, \dots:
当 n 较大、p 较小且 np = \lambda 适中时(如 n \geq 20, p \leq 0.05 或 n \geq 100, np \leq 10),可用泊松分布近似二项分布:
定义:若随机变量 X 的分布律为:
其中 \lambda > 0,则称 X 服从参数为 \lambda 的泊松分布,记作 X \sim P(\lambda) 或 X \sim \text{Poi}(\lambda)。
应用场景:单位时间内的顾客数、容器中细菌数、交通事故次数等稀有事件计数。
案例:设有 90 台同类型设备,每台故障概率 0.01,相互独立。一台设备故障需一人维修,每人仅能修一台。比较“3 人共同负责 90 台”与“3 人各负责 30 台”两种方案下设备故障不能及时维修的概率。
解答:
(1) 3 人共同负责 90 台:
设 X 为故障设备数,则 X \sim B(90, 0.01)。不能及时维修当且仅当 X > 3,其概率为:
用泊松近似 \lambda = np = 90 \times 0.01 = 0.9:
(2) 3 人各负责 30 台:
设 X_i 为第 i 人负责区域的故障设备数,则 X_i \sim B(30, 0.01)。第 i 人不能及时维修当 X_i > 1(因仅能修一台),其概率为:
用泊松近似 \lambda = 30 \times 0.01 = 0.3:
整个系统不能及时维修当至少一人无法及时维修,概率为:
结论:共同负责方案概率更低(0.0135 < 0.594),应选择共同负责。
案例:某网店商品日点击顾客数 N \sim \text{Poi}(\lambda),点击后购买概率为 p。求日购买顾客数 X 的分布。
解答:
X 的可能取值为 0, 1, 2, \dots,由全概率公式:
其中 P(X = k \mid N = n) = C_n^k p^k (1 - p)^{n - k}(二项分布),代入:
故 X \sim \text{Poi}(\lambda p),即泊松分布的可加性。
2.3 连续型随机变量及其分布
连续型随机变量的定义
设 X 为随机变量,其分布函数为 F(x)。若存在非负可积函数 f(x) 使得:
则称 X 为连续型随机变量,f(x) 称为概率密度函数(简称密度函数)。
密度函数的性质
- 非负性:f(x) \geq 0,对所有 x
- 归一性:
\int_{-\infty}^{+\infty} f(t) dt = 1
- 导数关系:在 f(x) 的连续点 x_0 处:
f(x_0) = F'(x_0)
- 概率计算:对任意 a < b:
P(a < X \leq b) = P(a \leq X \leq b) = P(a < X < b) = \int_{a}^{b} f(t) dt
- 单点概率:对任意 a,P(X = a) = 0
注:连续型随机变量的分布函数 F(x) 处处连续,而密度函数 f(x) 在非连续点可能不唯一。
例题:设随机变量 X 的密度函数为:
(1) 求常数 c;
(2) 求 P(X \in [0.4, 0.6]);
(3) 设 Y 为 3 次独立观测中 "X \in [0.4, 0.6]" 发生的次数,求 P(Y = 1)。
解答:
(1) 由归一性:
解得 c = 6。
(2) 计算概率:
(3) 设事件 A = \{X \in [0.4, 0.6]\},则 P(A) = p = 0.312。Y \sim B(3, p),故:
常见连续分布
(1) 均匀分布
若 X 的密度函数为:
则称 X 服从区间 (a, b) 上的均匀分布,记作 X \sim U(a, b)。
分布函数:
[图:均匀分布密度函数和分布函数示意图]
(2) 指数分布
若 X 的密度函数为:
其中 \lambda > 0,则称 X 服从参数为 \lambda 的指数分布,记作 X \sim E(\lambda)。
分布函数:
无记忆性:对任意 s, t > 0,
证明:
此性质说明指数分布具有"永远年轻"的特性。
案例(酒店订单):设 N(t) 为长为 t 小时内的订单数,N(t) \sim \text{Poi}(\lambda t)。求相继两个订单的时间间隔 T 的分布。
解答:
由泊松过程性质,T > t 当且仅当 [0, t] 内无订单,即:
故分布函数:
因此 T \sim E(\lambda)。
(3) 正态分布
若 X 的密度函数为:
其中 \mu \in \mathbb{R}, \sigma > 0,则称 X 服从参数为 \mu, \sigma^2 的正态分布,记作 X \sim N(\mu, \sigma^2)。
标准正态分布:当 \mu = 0, \sigma = 1 时,记作 X \sim N(0, 1),其密度函数和分布函数为:
\Phi(x) 的值可通过标准正态分布表查询,且满足 \Phi(-x) = 1 - \Phi(x)。
标准化:若 X \sim N(\mu, \sigma^2),则:
因此:
案例:某人群(40~50 岁)正常人空腹血糖指标 X \sim N(5.5, 0.4^2)。求血糖偏高概率 P(X > 6.2)。
解答:
标准化:
查表得 \Phi(1.75) = 0.9599,故:
案例(混合高斯模型):某人群中糖尿病人占 17%,正常人血糖指标 X \sim N(5.5, 0.4^2),糖尿病人血糖指标 X \sim N(6.9, 0.51^2)。求任取一人的血糖密度函数。
解答:
设 A 为"任取人为糖尿病人",则 P(A) = 0.17,P(A^c) = 0.83。由全概率公式:
其中:
因此:
案例(贝叶斯医学诊断):同上设定,已知某人血糖指标 X = 6.1,求患糖尿病概率 P(A \mid X = 6.1)。
解答:
由贝叶斯公式:
计算:
- f_{X \mid A^c}(6.1) = \frac{1}{0.4\sqrt{2\pi}} \exp\left(-\frac{(6.1 - 5.5)^2}{2 \cdot 0.4^2}\right) = \frac{1}{0.4\sqrt{2\pi}} e^{-1.125} \approx 0.482
- f_{X \mid A}(6.1) = \frac{1}{0.51\sqrt{2\pi}} \exp\left(-\frac{(6.1 - 6.9)^2}{2 \cdot 0.51^2}\right) = \frac{1}{0.51\sqrt{2\pi}} e^{-1.235} \approx 0.463
- f_X(6.1) = 0.83 \times 0.482 + 0.17 \times 0.463 \approx 0.478
- P(A \mid X = 6.1) = \frac{0.463 \times 0.17}{0.478} \approx 0.164
因此,患糖尿病概率约为 16.4%。
2.4 随机变量函数的分布
问题描述
已知随机变量 X 的分布,Y = g(X),求 Y 的分布。
离散型情形
直接转换:若 X 取值 x_k 概率为 p_k,则 Y = g(x_k) 的概率为:
例题:已知 X 的概率分布为:
| X | -1 | 0 | 1 | 2 |
|---|---|---|---|---|
| P | 1/8 | 1/8 | 1/4 | 1/2 |
求 Y = X^2 的分布律。
解答:
Y 的可能取值及对应概率:
- Y = 0 当 X = 0:P(Y = 0) = P(X = 0) = 1/8
- Y = 1 当 X = -1 或 X = 1:P(Y = 1) = P(X = -1) + P(X = 1) = 1/8 + 1/4 = 3/8
- Y = 4 当 X = 2:P(Y = 4) = P(X = 2) = 1/2
故 Y 的分布律为:Y 0 1 4 P 1/8 3/8 1/2
连续型情形
一般方法
- 先求 Y 的分布函数 F_Y(y) = P(g(X) \leq y)
- 再求密度函数 f_Y(y) = F_Y'(y)(在 F_Y 可导处)
单调函数情形
定理:设 X 的密度函数为 f_X(x),g(x) 为 (-\infty, +\infty) 内严格单调可导函数,则 Y = g(X) 的密度函数为:
其中 h(y) = g^{-1}(y) 为反函数,y 的取值范围为 (\alpha, \beta),\alpha = \min\{g(-\infty), g(+\infty)\},\beta = \max\{g(-\infty), g(+\infty)\}。
重要特例
- 线性变换:若 Y = aX + b (a \neq 0),则:
f_Y(y) = \frac{1}{|a|} f_X\left( \frac{y - b}{a} \right)
- 正态分布的线性变换:若 X \sim N(\mu, \sigma^2),则 Y = aX + b \sim N(a\mu + b, a^2 \sigma^2)
- 标准化:若 X \sim N(\mu, \sigma^2),则 Z = \frac{X - \mu}{\sigma} \sim N(0, 1)
案例(分子动能):气体分子速度 X 服从麦克斯韦分布:
动能 Y = \frac{1}{2} m X^2(m 为质量),求 Y 的分布。
解答:
Y 是 X 的单调函数(x > 0 时 g(x) = \frac{1}{2} m x^2 严格增),反函数 x = h(y) = \sqrt{2y / m},导数 h'(y) = \frac{1}{\sqrt{2 m y}}。
由定理:
化简:
例题:设 X 的分布函数 F(x) 为严格单调连续函数,求 Y = F(X) 的分布函数。
解答:
F(x) 单调增且值域 [0,1],Y 的分布函数:
由 F 严格增,存在反函数 F^{-1},故:
因此 F_Y(y) = y(0 \leq y \leq 1),即 Y \sim U(0, 1)。
重要结论:对任意连续型随机变量 X,F(X) \sim U(0, 1)。
例题:设 U \sim U(0, 1),F(y) = 1 - e^{-\lambda y} (y \geq 0),令 Y = -\frac{1}{\lambda} \ln(1 - U),证明 Y \sim E(\lambda)。
解答:
由 F(y) = 1 - e^{-\lambda y} 得 F^{-1}(u) = -\frac{1}{\lambda} \ln(1 - u)。由上例结论,Y = F^{-1}(U) 的分布函数为:
故 Y \sim E(\lambda)。
应用:此方法用于蒙特卡罗仿真,通过均匀分布生成任意分布的随机数。
默认评论
Halo系统提供的评论