第 72A 章 矩阵值随机变量与分布¶
前置:随机矩阵 (Ch23) · 正定矩阵 (Ch16) · 概率论基础 · 统计学基础
本章脉络:矩阵值随机变量的定义 \(\to\) 矩阵正态分布 (\(MN_{n,p}\)) \(\to\) 协方差的 Kronecker 结构 \(\to\) Wishart 分布(样本协方差的代数模型) \(\to\) 逆 Wishart 分布(共轭先验) \(\to\) 矩阵变量 T-分布 \(\to\) 矩阵 Beta 与 Gamma 分布 \(\to\) 应用:多元方差分析 (MANOVA)、贝叶斯多元回归、计量经济学中的结构建模
延伸:矩阵分布是多元统计的支柱;它将标量概率分布提升到了高维张量空间,揭示了多个变量在时间与空间维度上的联合波动规律,是处理金融市场与传感器网络数据的数学利器
在传统的统计学中,我们研究随机变量 \(X\) 或随机向量 \(\mathbf{x}\)。但在处理具有时间序列的多元数据(如 \(n\) 个时刻、 \(p\) 个指标的股票收益)时,最自然的描述对象是随机矩阵。矩阵分布(Matrix Distributions)不仅描述了矩阵元素的整体波动,还通过特定的乘积结构刻画了变量间复杂的协方差关系。本章将介绍这一现代统计学的高级代数语言。
72A.1 矩阵正态分布¶
定义 72A.1 (矩阵正态分布)
随机矩阵 \(X \in \mathbb{R}^{n \times p}\) 满足 矩阵正态分布 \(MN_{n,p}(M, U, V)\),如果其向量化形式满足: $\(\operatorname{vec}(X) \sim \mathcal{N}(\operatorname{vec}(M), V \otimes U)\)$ - \(M\):\(n \times p\) 均值矩阵。 - \(U\):\(n \times n\) 行协方差矩阵(描述样本间的相关性)。 - \(V\):\(p \times p\) 列协方差矩阵(描述特征间的相关性)。
72A.2 Wishart 分布¶
定义 72A.2 (Wishart 分布)
设 \(X_1, \ldots, X_n\) 是来自 \(\mathcal{N}(0, \Sigma)\) 的独立样本。则随机矩阵 \(S = \sum X_i X_i^T\) 满足 Wishart 分布,记作 \(S \sim W_p(n, \Sigma)\)。 地位:Wishart 分布是多元分析中“样本协方差矩阵”的理论模型,正如 \(\chi^2\) 分布是标量方差的模型。
72A.3 逆 Wishart 分布与贝叶斯¶
定义 72A.3 (逆 Wishart 分布)
若 \(S \sim W_p(n, \Sigma)\),则 \(S^{-1}\) 满足逆 Wishart 分布。 应用:在贝叶斯统计中,它是多元正态分布协方差矩阵的共轭先验,极大简化了后验概率的矩阵计算。
72A.4 矩阵 T-分布¶
重尾分布
矩阵 T-分布是矩阵正态分布与 Wishart 尺度的混合。它比正态分布更鲁棒,能够捕捉金融数据中的“胖尾”现象(即极端事件发生频率高于正态预测)。
练习题¶
1. [基础] 写出矩阵正态分布 \(\operatorname{vec}(X)\) 的协方差矩阵。
参考答案
解析: 根据矩阵正态分布 \(MN_{n,p}(M, U, V)\) 的定义,其向量化算子 \(\operatorname{vec}(X)\) 满足多维正态分布。 其对应的协方差矩阵具有特定的 Kronecker 积 结构: $\(\Sigma_{\operatorname{vec}(X)} = V \otimes U\)$ 其中 \(V\) 是 \(p \times p\) 矩阵,描述了列与列(变量间)的相关性;\(U\) 是 \(n \times n\) 矩阵,描述了行与行(观察值间)的相关性。这种结构反映了行与列相关性的解耦。
2. [期望] 若 \(X \sim MN(M, U, V)\),求 \(E[X]\)。
参考答案
推导: 1. 由于 \(\operatorname{vec}(E[X]) = E[\operatorname{vec}(X)] = \operatorname{vec}(M)\)。 2. 向量化算子是线性的且是一一映射。 3. 因此直接得出:\(E[X] = M\)。均值矩阵 \(M\) 直接给出了随机矩阵每个位置的期望值。
3. [Wishart] 证明:若 \(S \sim W_p(n, \Sigma)\),则 \(E[S] = n\Sigma\)。
参考答案
证明过程: 1. 根据 Wishart 分布的构造:\(S = \sum_{i=1}^n X_i X_i^T\),其中 \(X_i \sim \mathcal{N}(0, \Sigma)\)。 2. 利用期望的线性性质:\(E[S] = E[\sum X_i X_i^T] = \sum_{i=1}^n E[X_i X_i^T]\)。 3. 由于 \(X_i\) 均值为 0,其协方差 \(\Sigma = E[X_i X_i^T] - E[X_i]E[X_i^T] = E[X_i X_i^T]\)。 4. 代入得:\(E[S] = \sum_{i=1}^n \Sigma = n\Sigma\)。 物理意义:样本协方差矩阵(未归一化)的期望是真实协方差的 \(n\) 倍。
4. [性质] 随机矩阵 \(S \sim W_p(n, \Sigma)\) 什么时候是奇异的?
参考答案
代数分析: 1. \(S\) 是 \(n\) 个秩为 1 的外积阵 \(X_i X_i^T\) 之和。 2. 根据矩阵秩的不等式:\(\operatorname{rank}(S) \le \sum \operatorname{rank}(X_i X_i^T) = n\)。 3. 同时,\(S\) 的维度是 \(p \times p\)。 4. 如果 \(n < p\),则 \(\operatorname{rank}(S) \le n < p\),意味着矩阵不满秩。 结论:当样本量 \(n\) 小于变量维数 \(p\) 时,\(S\) 必然是奇异的(不可逆)。
5. [不变性] 若 \(X \sim MN(M, U, V)\),证明线性变换 \(AXB\) 仍满足矩阵正态分布。
参考答案
推导: 1. 考虑向量化形式:\(\operatorname{vec}(AXB) = (B^T \otimes A) \operatorname{vec}(X)\)。 2. 由于 \(\operatorname{vec}(X)\) 是正态分布,其线性变换 \((B^T \otimes A) \operatorname{vec}(X)\) 依然是正态分布。 3. 均值:\((B^T \otimes A) \operatorname{vec}(M) = \operatorname{vec}(AMB)\)。 4. 协方差:\((B^T \otimes A) (V \otimes U) (B^T \otimes A)^T\)。 5. 利用 Kronecker 性质 \((M \otimes N)^T = M^T \otimes N^T\):\(= (B^T V B) \otimes (A U A^T)\)。 结论:\(AXB \sim MN(AMB, AUA^T, B^TVB)\)。
6. [Beta] 什么是矩阵值 Beta 分布?
参考答案
定义: 设 \(S_1 \sim W_p(n_1, \Sigma)\) 和 \(S_2 \sim W_p(n_2, \Sigma)\) 是独立的 Wishart 变量。 构造矩阵 \(B = (S_1 + S_2)^{-1/2} S_1 (S_1 + S_2)^{-1/2}\)。 则 \(B\) 满足的分布称为 矩阵值 Beta 分布。 应用:它在多元假设检验中用于构造似然比统计量,如 Wilks' Lambda 分布。
7. [计算] 若 \(X \in \mathbb{R}^{2 \times 2}\),且 \(U=I, V=I, M=0\),求 \(P(\|X\|_F^2 > t)\) 的分布类型。
参考答案
步骤: 1. Frobenius 范数平方 \(\|X\|_F^2 = \sum_{i=1}^2 \sum_{j=1}^2 x_{ij}^2\)。 2. 由于 \(U=I, V=I, M=0\),所有的 \(x_{ij}\) 都是独立同分布的标准正态变量 \(\mathcal{N}(0, 1)\)。 3. 共有 \(2 \times 2 = 4\) 个独立变量。 4. 独立正态变量的平方和遵循卡方分布。 结论:该概率遵循自由度为 4 的 \(\chi^2\) 分布。
8. [贝叶斯] 为什么称逆 Wishart 是共轭先验?
参考答案
统计逻辑: 1. 在贝叶斯推断中,如果“似然函数 \(P(Data|\Sigma)\)”与“先验分布 \(P(\Sigma)\)”相乘后,得到的“后验分布 \(P(\Sigma|Data)\)”与先验属于同一类分布,则称其为共轭先验。 2. 对于多元正态似然,协方差矩阵的逆(精度矩阵)服从 Wishart 分布,而协方差本身服从逆 Wishart。 3. 这使得计算出的后验参数只需进行简单的矩阵加法(累加样本平方和),极大地简化了高维随机建模。
9. [关系] 简述矩阵分布与随机矩阵理论 (RMT) 的区别。
参考答案
对比分析: - 矩阵分布:关注的是精确的统计模型。给定特征(如均值、协方差),研究矩阵作为整体的概率密度函数。适用于样本量有限的统计推断。 - RMT:关注的是渐近的普遍规律。研究当维度 \(n \to \infty\) 时,特征值分布的极限形态(如半圆律、MP 律)。它通常假设元素是独立同分布的,而不关注特定的均值偏移。
10. [应用] 在信号处理中,如何利用 Wishart 分布检测信号?
参考答案
方法: 1. 采集传感器数据,计算样本协方差矩阵 \(S\)。 2. 假设环境中只有纯噪声,则 \(S\) 应服从 \(W_p(n, \sigma^2 I)\)。 3. 计算 \(S\) 的最大特征值 \(\lambda_{\max}\)。 4. 根据 Wishart 分布的谱理论(如 Tracy-Widom 分布),计算出现该 \(\lambda_{\max}\) 的概率。 5. 判定:若观测值远大于理论上限,则判定存在非随机信号(真实目标)。