3.1 二维随机变量及其分布
二维随机变量的定义
设试验 E 对应概率空间 (\Omega,\mathcal{F},P),X 与 Y 为 (\Omega,\mathcal{F},P) 上的两个随机变量,则称 (X,Y) 为二维随机变量(或二维随机向量)。
案例: 考查上海市2022年与2023年12月份的空气质量指数数据。
- 横坐标表示PM2.5指数,记为 X
- 纵坐标表示PM10指数,记为 Y
则 (X,Y) 构成二维随机变量。[图:PM2.5与PM10的散点图,每个点表示某一天的指数]
联合分布函数
设 (X,Y) 为二维随机变量,定义联合分布函数(简称分布函数)为:
联合分布函数的性质
-
有界性:0 \leq F(x,y) \leq 1,且 F(+\infty,+\infty) = 1
-
单调性(对每个变量):
- 固定 y,对任意 x_1 < x_2,有 F(x_1,y) \leq F(x_2,y)
- 固定 x,对任意 y_1 < y_2,有 F(x,y_1) \leq F(x,y_2)
-
右连续性:
F(x_0,y_0) = F(x_0+0,y_0), \quad F(x_0,y_0) = F(x_0,y_0+0) -
非负性:对任意 a < b,c < d,
F(b,d) - F(b,c) - F(a,d) + F(a,c) \geq 0几何意义:(X,Y) 落在矩形区域 (a,b] \times (c,d] 内的概率非负。
注:满足上述四条性质的函数可作为二维随机变量的联合分布函数。
例
设
验证 F(x,y) 是否为有效的分布函数。
解答:
取点 (0,0),(2,0),(2,2),(0,2):
违反非负性,故 F(x,y) 不能作为二维随机变量的分布函数。
边缘分布函数
设 (X,Y) 的联合分布函数为 F(x,y),则 X 和 Y 的边缘分布函数分别为:
性质:联合分布函数唯一决定边缘分布函数,但反之不成立。
二维离散型随机变量
定义与联合分布律
若 (X,Y) 的所有可能取值为有限对或可列无穷多对,则称其为二维离散型随机变量。
设所有可能取值为 (x_i, y_j)(i,j = 1,2,\dots),则称
为 (X,Y) 的联合分布律(联合分布列)。
性质
- p_{ij} \geq 0,\forall i,j
- \sum_{i=1}^{\infty} \sum_{j=1}^{\infty} p_{ij} = 1
联合分布律常用表格表示:
| X\backslash Y | y_1 | y_2 | \cdots | y_j | \cdots |
|---|---|---|---|---|---|
| x_1 | p_{11} | p_{12} | \cdots | p_{1j} | \cdots |
| x_2 | p_{21} | p_{22} | \cdots | p_{2j} | \cdots |
| \vdots | \vdots | \vdots | \ddots | \vdots | \ddots |
| x_i | p_{i1} | p_{i2} | \cdots | p_{ij} | \cdots |
| \vdots | \vdots | \vdots | \ddots | \vdots | \ddots |
边缘分布律
由联合分布律可求边缘分布律:
例: 掷一枚骰子 3 次,X 表示点数为偶数的次数,Y 表示点数为 6 的次数。
(1)求 (X,Y) 的联合分布列;(2)求 Y 的分布列;(3)求 P(X > Y)。
解答:
(1)联合分布列:
| X\backslash Y | 0 | 1 | 2 | 3 |
|---|---|---|---|---|
| 0 | 1/8 | 1/4 | 1/6 | 1/27 |
| 1 | 0 | 1/8 | 1/6 | 1/18 |
| 2 | 0 | 0 | 1/24 | 1/36 |
| 3 | 0 | 0 | 0 | 1/216 |
(2)Y 的边缘分布律:
故 Y 的分布列为:
| Y | 0 | 1 | 2 | 3 |
|---|---|---|---|---|
| P | 1/8 | 3/8 | 3/8 | 1/8 |
(3)P(X > Y):
(注:查表得满足 X > Y 的项仅 (X=3,Y=2) 对应概率 1/36)
二维连续型随机变量
定义与联合密度函数
设 (X,Y) 的分布函数为 F(x,y),若存在非负可积函数 f(x,y) 使得
则称 (X,Y) 为二维连续型随机变量,f(x,y) 称为联合密度函数。
联合密度的性质
-
f(x,y) \geq 0
-
\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x,y) dy dx = 1
-
对任意区域 G \subset \mathbb{R}^2,P((X,Y) \in G) = \iint_G f(x,y) dx dy
-
边缘密度函数:
f_X(x) = \int_{-\infty}^{+\infty} f(x,y) dy, \quad f_Y(y) = \int_{-\infty}^{+\infty} f(x,y) dx任意满足前两条性质的函数均可作为联合密度函数。
案例: 考查某人群的 BMI 指数 X 和血液总胆固醇含量 Y(单位:mmol/L),(X,Y) 为二维连续型随机变量。[图:BMI 与胆固醇的散点图,显示椭圆区域分布集中]
常见二维分布
(1)均匀分布
设 D 是平面上有界区域,面积为 S_D。若 (X,Y) 的联合密度为
则称 (X,Y) 在 D 上服从均匀分布。[图:均匀分布的密度曲面,在区域 D 上为常数]
(2)二维正态分布
若 (X,Y) 的联合密度为
其中 \mu_1, \sigma_1^2 > 0, \mu_2, \sigma_2^2 > 0, |\rho| < 1,则称 (X,Y) 服从参数为 (\mu_1, \sigma_1^2; \mu_2, \sigma_2^2; \rho) 的二维正态分布,记作 (X,Y) \sim N(\mu_1, \sigma_1^2; \mu_2, \sigma_2^2; \rho)。
重要结论:二维正态分布的边缘分布为一维正态分布
例: 设 (X,Y) 的联合密度为
求:(1)常数 c;(2)P(X \leq Y);(3)边缘密度函数。
解答:
(1)由 \iint_{\mathbb{R}^2} f(x,y) dx dy = 1:
被积函数为奇函数,积分区间对称,故
正确计算:
矛盾!因 f(x,y) 要求非负,cxy 在 x<0 时为负,故定义域应限制 x \geq 0。
由图形 x^2 \leq y \leq 1 得 0 \leq x \leq 1:
令 \frac{c}{6} = 1,得 c = 6。
(2)P(X \leq Y):积分区域 x^2 \leq y \leq 1 且 x \leq y,即 y \geq x(因 y \geq x^2 \geq 0):
分区间:
- 0 \leq x \leq 1 时,x^2 \leq x 当 x \in [0,1],故 \max(x^2, x) = x
(3)边缘密度函数:
-
f_X(x):当 0 < x < 1 时
f_X(x) = \int_{x^2}^{1} 6xy dy = 6x \left[ \frac{y^2}{2} \right]_{x^2}^{1} = 3x (1 - x^4)故
f_X(x) = \begin{cases} 3x(1 - x^4), & 0 < x < 1 \\ 0, & \text{其他} \end{cases} -
f_Y(y):当 0 < y < 1 时,x 满足 x^2 \leq y,即 0 \leq x \leq \sqrt{y}
f_Y(y) = \int_{0}^{\sqrt{y}} 6xy dx = 6y \left[ \frac{x^2}{2} \right]_{0}^{\sqrt{y}} = 3y \cdot y = 3y^2故
f_Y(y) = \begin{cases} 3y^2, & 0 < y < 1 \\ 0, & \text{其他} \end{cases}
3.2 二维随机变量的条件分布
二维离散型随机变量的条件分布律
设 (X,Y) 的联合分布律为 P(X = x_i, Y = y_j) = p_{ij},则在 X = x_i 条件下 Y 的条件分布律为:
例: 掷一枚骰子 3 次,X 表示点数为偶数的次数,Y 表示点数为 6 的次数。已知 X = 2,求 Y 的条件分布。
解答:
联合分布列(见 3.1 节):
-
P(X=2) = \frac{1}{24} + \frac{1}{36} = \frac{5}{72}(边缘概率)
-
条件分布:
\begin{align*} P(Y=0 \mid X=2) &= \frac{0}{5/72} = 0 \\ P(Y=1 \mid X=2) &= \frac{0}{5/72} = 0 \\ P(Y=2 \mid X=2) &= \frac{1/24}{5/72} = \frac{3}{5} \\ P(Y=3 \mid X=2) &= \frac{1/36}{5/72} = \frac{2}{5} \end{align*}故在 X=2 条件下 Y 的条件分布为:
| Y | 0 | 1 | 2 | 3 |
|---|---|---|---|---|
| P | 0 | 0 | 3/5 | 2/5 |
二维连续型随机变量的条件分布
设 (X,Y) 联合密度为 f(x,y),边缘密度 f_X(x) > 0,则在 X = x 条件下 Y 的条件分布函数和条件密度为:
重要性质
- 乘法公式:f(x,y) = f_X(x) f_Y(y \mid X = x)
- 全概率公式:f_X(x) = \int_{-\infty}^{+\infty} f_X(x) f_Y(y \mid X = x) dy
- Bayes 公式:
f_X(x \mid Y = y) = \frac{f(x,y)}{f_Y(y)} = \frac{f_X(x) f_Y(y \mid X = x)}{\int_{-\infty}^{+\infty} f_X(u) f_Y(y \mid X = u) du}
例: 已知 (X,Y) \sim N(\mu_1, \sigma_1^2; \mu_2, \sigma_2^2; \rho),求 f_Y(y \mid X = x)。
解答:
二维正态密度:
X 的边缘密度:f_X(x) = \frac{1}{\sqrt{2\pi}\sigma_1} e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}
条件密度:
故在 X = x 条件下 Y 的条件分布为:
3.3 随机变量的独立性
独立性定义
设 (X,Y) 为二维随机变量,若对任意实数 x,y 有
则称 X 与 Y 相互独立。
等价表述
- 对任意 a < b, c < d:P(a < X \leq b, c < Y \leq d) = P(a < X \leq b) P(c < Y \leq d)
- 对任意 Borel 集 B_1, B_2 \in \mathcal{B}(\mathbb{R}):P(X \in B_1, Y \in B_2) = P(X \in B_1) P(Y \in B_2)
- 性质:若 X,Y 独立,则 g(X) 与 h(Y) 也独立(g,h 为任意可测函数)
离散型随机变量的独立性
X,Y 独立当且仅当对任意 (x_i, y_j) 有:
此时条件分布等于边缘分布:
例:
若 X,Y 独立,问 P(X=Y)?
解答:
X,Y 不一定是同一随机变量(如 X 抛硬币,Y 另一独立抛硬币)。
连续型随机变量的独立性
X,Y 独立当且仅当在联合密度连续点处有:
此时条件密度等于边缘密度:
例: 判断下列联合密度中 X,Y 是否独立:
(1) $f_1(x,y) =
\begin{cases}
4xy, & 0 < x < 1, 0 < y < 1 \
0, & \text{其他}
\end{cases}$
(2) $f_2(x,y) =
\begin{cases}
8xy, & 0 < x < y, 0 < y < 1 \
0, & \text{其他}
\end{cases}$
解答:
(1) 边缘密度:
且 f_1(x,y) = 4xy = (2x)(2y) = f_X(x) f_Y(y),故 X,Y 独立。
(2) 边缘密度:
但 f_2(x,y) = 8xy \neq 4x(1-x^2) \cdot 4y^3,故不独立。
定理:X,Y 独立的充要条件是存在非负可积函数 r(x), s(y) 使得 f(x,y) = r(x)s(y)。
多维随机变量的独立性
设 (X_1, \dots, X_n) 为 n 维随机变量,联合分布函数 F(x_1, \dots, x_n) = P(X_1 \leq x_1, \dots, X_n \leq x_n)。
称 X_1, \dots, X_n 相互独立,若对任意实数 x_1, \dots, x_n 有:
等价于联合密度可分解为边缘密度乘积:f(x_1, \dots, x_n) = \prod_{i=1}^{n} f_{X_i}(x_i)。
重要推论(二维正态分布):
若 (X,Y) \sim N(\mu_1, \sigma_1^2; \mu_2, \sigma_2^2; \rho),则 X,Y 相互独立当且仅当 \rho = 0。
3.4 多维随机变量函数的分布
离散型随机变量函数的分布
设 (X,Y) 为离散型,Z = g(X,Y),则 Z 的分布为:
例: 设 (X,Y) 联合分布为:
| X\backslash Y | -1 | 1 | 2 |
|---|---|---|---|
| -1 | 1/8 | 1/12 | 1/6 |
| 0 | 1/8 | 1/4 | 1/4 |
求 X+Y, X-Y, XY, Y/X 的分布。
解答:
-
X+Y 可能取值:-2, 0, 1, -1, 1, 2
\begin{align*} P(X+Y=-2) &= P(X=-1,Y=-1) = 1/8 \\ P(X+Y=0) &= P(X=-1,Y=1) = 1/12 \\ P(X+Y=1) &= P(X=-1,Y=2) + P(X=0,Y=1) = 1/6 + 1/4 = 5/12 \\ P(X+Y=-1) &= P(X=0,Y=-1) = 1/8 \\ P(X+Y=2) &= P(X=0,Y=2) = 1/4 \end{align*}故 X+Y 分布:
Z -2 -1 0 1 2 P 1/8 1/8 1/12 5/12 1/4
(其余 X-Y、XY、Y/X 类似求解,过程略)
可加性离散分布:
- 若 X \sim B(n_1,p), Y \sim B(n_2,p) 且独立,则 X+Y \sim B(n_1+n_2,p)
- 若 X \sim Po(\lambda_1), Y \sim Po(\lambda_2) 且独立,则 X+Y \sim Po(\lambda_1+\lambda_2)
连续型随机变量函数的分布
设 (X,Y) 联合密度 f(x,y),Z = g(X,Y),一般方法:
再求导得密度 f_Z(z) = F_Z'(z)。
(1)和 Z = X + Y 的密度
若 X,Y 独立,则 f(x,y) = f_X(x) f_Y(y),故
(卷积公式)
例: 设 (X,Y) 联合密度 $f(x,y) =
\begin{cases}
3x, & 0 < x < 1, 0 < y < x \
0, & \text{其他}
\end{cases},求 Z = X + Y$ 的密度。
解答:
积分区域:0 < x < 1, 0 < y < x, y \leq z - x ⇒ 0 < x < 1, 0 < y < \min(x, z - x)
分情况讨论:
-
当 z \leq 0:f_Z(z) = 0
-
当 0 < z \leq 1:
F_Z(z) = \int_{0}^{z/2} \int_{0}^{x} 3x dy dx + \int_{z/2}^{z} \int_{0}^{z-x} 3x dy dx = \cdots直接求密度:
f_Z(z) = \int_{x} f(x, z - x) dx, \quad \text{其中 } 0 < x < 1, 0 < z - x < x \Rightarrow z/2 < x < z且 0 < z < 2:
f_Z(z) = \begin{cases} \int_{z/2}^{z} 3x dx = \frac{3}{2} (z^2 - \frac{z^2}{4}) = \frac{9z^2}{8}, & 0 < z \leq 1 \\ \int_{z/2}^{1} 3x dx = \frac{3}{2} (1 - \frac{z^2}{4}), & 1 < z < 2 \\ 0, & \text{其他} \end{cases}
(2)商 Z = X / Y 的密度
(3)平方和 Z = X^2 + Y^2 的密度
用极坐标变换:x = r\cos\theta, y = r\sin\theta,则
例: 设 X \sim N(0,1), Y \sim N(0,1) 且独立,则 Z = X^2 + Y^2 \sim \chi^2(2)(自由度 2 的卡方分布)。
解答:
联合密度 f(x,y) = \frac{1}{2\pi} e^{-(x^2+y^2)/2},
即 Z \sim \text{Exp}(1/2),等价于 \chi^2(2)。
(4)极值分布
设 M = \max(X,Y), N = \min(X,Y),则:
若 X,Y 独立,F_N(v) = 1 - [1 - F_X(v)][1 - F_Y(v)]。
推广:对独立随机变量 X_1,\dots,X_n,
正态随机变量的可加性
若 X,Y 独立,X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2),则
推广:若 X_i \sim N(\mu_i, \sigma_i^2) 相互独立,则
案例: 医院专家对每个病人诊断需初诊时间 X \sim N(\mu_1, \sigma_1^2)(分钟),复诊时间 Y \sim N(\mu_2, \sigma_2^2)(分钟),且 X,Y 独立。求总时长 Z = X + Y 的分布。
解答:
案例(续): 每个病人以概率 p 需要复诊(与 X,Y 独立),令 I = \begin{cases} 1, & \text{需复诊} \\ 0, & \text{否则} \end{cases},则总时长 Z = X + IY。
解答:
故 Z 是混合分布:以概率 1-p 服从 N(\mu_1, \sigma_1^2),以概率 p 服从 N(\mu_1+\mu_2, \sigma_1^2 + \sigma_2^2)。
默认评论
Halo系统提供的评论