第 23 章 随机矩阵初步¶
前置:特征值/SVD(Ch6-8) · 正定矩阵(Ch7)
脉络:\(n \to \infty\) 时特征值的统计行为——半圆律(Wigner) → MP 律(Wishart/样本协方差) → Tracy-Widom(边缘涨落) → 普适性
延伸:随机矩阵在无线通信(MIMO 信道容量)、量子混沌、数论(Riemann zeta 函数零点的 Montgomery-Odlyzko 统计)、金融数学(资产相关性建模)中有深刻应用
随机矩阵理论(Random Matrix Theory, RMT)研究矩阵元素为随机变量时,矩阵特征值和特征向量的统计性质。该理论起源于 20 世纪 50 年代 Wigner 对原子核能级统计的研究,此后在数学物理、数论、无线通信、高维统计等众多领域产生了深远影响。本章将系统介绍随机矩阵的基本概念、核心极限定理以及若干前沿应用。
23.1 随机矩阵基本概念¶
三大系综:GOE(\(\beta=1\), 实对称) / GUE(\(\beta=2\), Hermite) / GSE(\(\beta=4\), 四元数) → 对称性决定 \(\beta\) → 联合密度 \(\propto \prod_{i<j}|\lambda_i - \lambda_j|^\beta \cdot e^{-\sum \lambda_i^2}\)
Wishart 矩阵 \(W = \frac{1}{n}X^TX\):样本协方差矩阵的原型 → 链接 Ch25 PCA
随机矩阵是指其元素由随机变量构成的矩阵。我们关注的核心问题是:当矩阵维数 \(n \to \infty\) 时,特征值的经验分布呈现何种确定性极限?
定义 23.1 (随机矩阵)
设 \((\Omega, \mathcal{F}, P)\) 为概率空间。一个 随机矩阵(random matrix)是一个可测映射 \(M: \Omega \to \mathbb{K}^{n \times n}\),其中 \(\mathbb{K} = \mathbb{R}\) 或 \(\mathbb{C}\),即 \(M\) 的每个元素 \(M_{ij}(\omega)\) 都是定义在该概率空间上的随机变量。
定义 23.2 (高斯正交系综 GOE)
高斯正交系综(Gaussian Orthogonal Ensemble, GOE)是 \(n \times n\) 实对称随机矩阵 \(M\) 的概率分布,其密度函数为
其中 \(C_n\) 为归一化常数。等价地,\(M\) 的上三角元素独立,对角元素 \(M_{ii} \sim N(0, 2/n)\),非对角元素 \(M_{ij} \sim N(0, 1/n)\)(\(i < j\)),且 \(M_{ji} = M_{ij}\)。GOE 的分布在正交共轭 \(M \mapsto O^T M O\)(\(O \in O(n)\))下不变。
定义 23.3 (高斯酉系综 GUE)
高斯酉系综(Gaussian Unitary Ensemble, GUE)是 \(n \times n\) Hermite 随机矩阵 \(M\) 的概率分布,其密度函数为
等价地,对角元素 \(M_{ii} \sim N(0, 1/n)\) 为实随机变量;非对角元素(\(i < j\))的实部和虚部独立且均服从 \(N(0, 1/(2n))\),并令 \(M_{ji} = \overline{M_{ij}}\)。GUE 的分布在酉共轭 \(M \mapsto U^* M U\)(\(U \in U(n)\))下不变。
定义 23.4 (高斯辛系综 GSE)
高斯辛系综(Gaussian Symplectic Ensemble, GSE)是 \(2n \times 2n\) 自对偶四元数 Hermite 矩阵的概率分布。其分布在辛共轭 \(M \mapsto S^* M S\)(\(S \in Sp(2n)\))下不变,密度函数为
GOE、GUE、GSE 分别对应 Dyson 指标 \(\beta = 1, 2, 4\)。
定义 23.5 (Wishart 矩阵)
设 \(X\) 为 \(n \times p\) 矩阵,其行向量独立同分布于 \(N(\mathbf{0}, \Sigma)\),则 Wishart 矩阵(Wishart matrix)定义为
当 \(\Sigma = I_p\) 时,\(W\) 称为白 Wishart 矩阵。Wishart 分布记为 \(W \sim \mathcal{W}_p(\Sigma, n)\)。
定义 23.6 (经验谱分布)
设 \(M\) 为 \(n \times n\) Hermite 矩阵,特征值为 \(\lambda_1 \le \lambda_2 \le \cdots \le \lambda_n\)。经验谱分布(Empirical Spectral Distribution, ESD)定义为
对应的经验谱测度为 \(\mu_n = \frac{1}{n} \sum_{i=1}^{n} \delta_{\lambda_i}\)。
注
三大高斯系综的统一框架可以通过 \(\beta\)-系综(\(\beta\)-ensemble)给出:对 \(\beta > 0\),联合特征值密度为
定理 23.1 (GOE/GUE 联合特征值密度)
设 \(M\) 为 GOE(\(\beta=1\))或 GUE(\(\beta=2\))矩阵,则其特征值 \(\lambda_1, \ldots, \lambda_n\) 的联合概率密度函数为
其中 \(Z_{n,\beta}\) 为归一化常数。
证明
以 GUE(\(\beta = 2\))为例。设 \(M = U \Lambda U^*\),其中 \(U \in U(n)\),\(\Lambda = \operatorname{diag}(\lambda_1, \ldots, \lambda_n)\)。对密度 \(f(M) \propto e^{-\frac{n}{2}\operatorname{tr}(M^2)}\) 做变量替换,由 Jacobi 公式,变换的 Jacobi 行列式为
注意 \(\operatorname{tr}(M^2) = \operatorname{tr}(\Lambda^2) = \sum_i \lambda_i^2\),对 \(U\) 上的 Haar 测度积分后得到
此即 \(\beta = 2\) 的情形。GOE(\(\beta=1\))的推导类似,区别在于 Jacobi 行列式中指数为 \(1\)。\(\blacksquare\)
例 23.1
验证 \(2 \times 2\) GUE 特征值密度。
设 \(M = \begin{pmatrix} a & z \\ \bar{z} & b \end{pmatrix}\),其中 \(a, b \sim N(0, 1/n)\),\(z = x + iy\),\(x, y \sim N(0, 1/(2n))\)。特征值为
做变量替换 \((a, b, x, y) \to (\lambda_+, \lambda_-, \theta)\),其中 \(\theta\) 为特征向量参数,可以验证联合密度中出现因子 \(|\lambda_+ - \lambda_-|^2\),与定理 23.1 一致。
23.2 Wigner 矩阵与半圆律¶
核心定理:Wigner 矩阵(对称+独立+零均值+方差1)的经验谱分布 → \(\rho_{sc}(x) = \frac{1}{2\pi}\sqrt{4-x^2}\)(半圆)
证明路线:矩量法——\(\frac{1}{n}\mathbb{E}[\text{tr}(W^{2m})]\) → 闭合路径计数 → Catalan 数 \(C_m\) → 唯一确定半圆分布
Wigner 半圆律是随机矩阵理论中最基本的极限定理,它描述了 Wigner 矩阵经验谱分布的极限行为。
定义 23.7 (Wigner 矩阵)
Wigner 矩阵(Wigner matrix)是 \(n \times n\) Hermite(或实对称)随机矩阵 \(W_n = \frac{1}{\sqrt{n}}(X_{ij})_{1 \le i,j \le n}\),其中:
- \(\{X_{ij} : i \le j\}\) 独立;
- 对角元素 \(X_{ii}\) 独立同分布,\(\mathbb{E}[X_{ii}] = 0\),\(\mathbb{E}[X_{ii}^2] < \infty\);
- 非对角元素 \(X_{ij}\)(\(i < j\))独立同分布,\(\mathbb{E}[X_{ij}] = 0\),\(\mathbb{E}[|X_{ij}|^2] = 1\);
- \(X_{ji} = \overline{X_{ij}}\)。
定理 23.2 (Wigner 半圆律)
设 \(W_n\) 为 Wigner 矩阵,令 \(\mu_n = \frac{1}{n}\sum_{i=1}^{n} \delta_{\lambda_i}\) 为其经验谱测度。则当 \(n \to \infty\) 时,\(\mu_n\) 几乎必然弱收敛到 半圆分布(semicircle distribution)\(\mu_{sc}\),其密度为
证明
矩量法(Method of Moments)的核心思路如下。
第一步:计算矩量。 需要证明对任意正整数 \(k\),
展开 \(\operatorname{tr}(W_n^k) = \frac{1}{n^{k/2}} \sum_{i_1, \ldots, i_k} X_{i_1 i_2} X_{i_2 i_3} \cdots X_{i_k i_1}\),每一项对应一条闭合路径 \((i_1, i_2, \ldots, i_k, i_1)\)。
第二步:图论组合分析。 由于 \(\mathbb{E}[X_{ij}] = 0\),只有每条边至少被经过两次的路径才有非零贡献。对 \(k\) 为奇数,满足条件的路径不存在,故 \(m_k = 0\)。对 \(k = 2m\),主要贡献来自每条边恰好被经过两次的路径,这类路径与 Catalan 数(Catalan number)\(C_m\) 一一对应。
第三步:确认 Catalan 数。 可以证明
而半圆分布的 \(2m\) 阶矩恰好等于 Catalan 数。
第四步:矩量唯一确定分布。 由于半圆分布的支撑有界(\([-2, 2]\)),其矩量序列唯一确定该分布。
第五步:几乎必然收敛。 利用方差估计 \(\operatorname{Var}\!\left(\frac{1}{n}\operatorname{tr}(W_n^k)\right) = O(n^{-2})\),由 Borel-Cantelli 引理可将期望收敛提升为几乎必然收敛。\(\blacksquare\)
定理 23.3 (半圆律的 Stieltjes 变换刻画)
半圆分布 \(\mu_{sc}\) 的 Stieltjes 变换为
其中取使得 \(\operatorname{Im}(s(z)) > 0\)(当 \(\operatorname{Im}(z) > 0\))的分支。等价地,\(s(z)\) 满足方程
证明
直接计算。设 \(z \in \mathbb{C}^+\),则
做替换 \(x = 2\cos\theta\),\(dx = -2\sin\theta \, d\theta\),\(\sqrt{4 - x^2} = 2\sin\theta\),则
利用留数定理(令 \(w = e^{i\theta}\),化为围道积分),可以计算得
验证:\(s^2 + zs + 1 = \frac{z^2 - 2z\sqrt{z^2-4} + z^2 - 4}{4} + \frac{-z^2 + z\sqrt{z^2-4}}{2} + 1 = 0\)。\(\blacksquare\)
例 23.2
数值验证半圆律。
取 \(n = 1000\),生成 GOE 矩阵 \(M = \frac{1}{\sqrt{n}} A\),其中 \(A\) 为对称矩阵,上三角元素独立标准正态。计算特征值并绘制直方图,观察直方图与 \(\rho_{sc}(x) = \frac{1}{2\pi}\sqrt{4 - x^2}\) 的拟合。实验表明即使在 \(n = 1000\) 时,经验谱分布已非常接近半圆分布。
例 23.3
计算半圆分布的矩量。
半圆分布的奇数阶矩为零(对称性)。偶数阶矩:
一般地,\(m_{2k} = C_k = \frac{1}{k+1}\binom{2k}{k}\),其中 \(C_k\) 为第 \(k\) 个 Catalan 数。前几项:\(C_0=1, C_1=1, C_2=2, C_3=5, C_4=14\)。
23.3 样本协方差矩阵与 Marchenko-Pastur 律¶
从 Wigner 到 Wishart:半圆律 = 对称矩阵的谱极限 → MP 律 = \(\frac{1}{n}X^TX\) 的谱极限,支撑 \([(1-\sqrt{y})^2, (1+\sqrt{y})^2]\),\(y = p/n\)
高维统计的基石:\(p/n \to y > 0\) 时样本协方差矩阵与真实协方差偏差巨大 → 经典统计理论失效 → 链接 Ch25 PCA
当我们从高维总体中抽取样本时,样本协方差矩阵的谱行为由 Marchenko-Pastur 律刻画。
定义 23.8 (样本协方差矩阵)
设 \(\mathbf{x}_1, \ldots, \mathbf{x}_n \in \mathbb{R}^p\) 为独立同分布随机向量,\(\mathbb{E}[\mathbf{x}_i] = \mathbf{0}\),\(\operatorname{Cov}(\mathbf{x}_i) = \Sigma\)。样本协方差矩阵(sample covariance matrix)定义为
其中 \(X = (\mathbf{x}_1, \ldots, \mathbf{x}_n)^T\) 为 \(n \times p\) 数据矩阵。
定理 23.4 (Marchenko-Pastur 律)
设 \(X\) 为 \(n \times p\) 矩阵,元素 \(X_{ij}\) 独立同分布,\(\mathbb{E}[X_{ij}] = 0\),\(\mathbb{E}[X_{ij}^2] = 1\)。令 \(S_n = \frac{1}{n} X^T X\),\(\gamma = p/n \to y \in (0, \infty)\)。则 \(S_n\) 的经验谱分布几乎必然弱收敛到 Marchenko-Pastur 分布(Marchenko-Pastur distribution)\(\mu_{MP}\),其密度为
其中 \(\lambda_\pm = (1 \pm \sqrt{y})^2\)。当 \(y > 1\) 时,\(\mu_{MP}\) 在 \(x = 0\) 处有质量 \(1 - 1/y\) 的点质量。
证明
Stieltjes 变换方法。 令 \(s_n(z)\) 为 \(S_n\) 经验谱分布的 Stieltjes 变换。利用恒等式
以及矩阵恒等式
结合 Sherman-Morrison-Woodbury 公式逐列删除技巧,可以证明 \(s_n(z)\) 收敛到满足如下方程的 \(s(z)\):
化简得
更精确地,Marchenko-Pastur 分布的 Stieltjes 变换满足
解此方程并验证 Stieltjes 反转公式 \(\rho(x) = \frac{1}{\pi} \lim_{\eta \downarrow 0} \operatorname{Im} s(x + i\eta)\) 即可还原密度 \(\rho_{MP}\)。\(\blacksquare\)
定理 23.5 (一般总体的 Marchenko-Pastur 律)
设 \(X\) 为 \(n \times p\) 矩阵,元素独立同分布,\(\mathbb{E}[X_{ij}] = 0\),\(\mathbb{E}[X_{ij}^2] = 1\)。设总体协方差 \(\Sigma\) 的经验谱分布收敛到 \(H\)。令 \(S_n = \frac{1}{n} X \Sigma X^T\),\(p/n \to y\)。则 \(S_n\) 的极限谱分布 \(F\) 的 Stieltjes 变换 \(s(z)\) 满足
证明
证明思路与定理 23.4 类似,但在逐列删除时需要考虑 \(\Sigma\) 的结构。利用 \(S_n = \frac{1}{n} X \Sigma X^T\) 和预解矩阵的秩一扰动公式,经过集中不等式和截断论证,可以证明 \(s_n(z)\) 满足的近似方程在 \(n \to \infty\) 时收敛到上述确定性方程。详细证明见 Silverstein-Bai (1995)。\(\blacksquare\)
例 23.4
\(y = 1\) 时的 Marchenko-Pastur 分布。
当 \(p = n\)(即 \(y = 1\))时,\(\lambda_- = 0\),\(\lambda_+ = 4\),密度为
注意此时 \(\rho_{MP}(x) \to \infty\) 当 \(x \to 0^+\),即在零点附近特征值密度趋于无穷。
例 23.5
比较不同 \(y\) 值下的 MP 分布。
- \(y = 0.2\):\(\lambda_- = (1 - \sqrt{0.2})^2 \approx 0.106\),\(\lambda_+ = (1 + \sqrt{0.2})^2 \approx 2.294\),分布集中在 \(1\) 附近。
- \(y = 1\):\(\lambda_- = 0\),\(\lambda_+ = 4\),分布扩展到 \([0, 4]\)。
- \(y = 5\):\(\lambda_- = 0\),\(\lambda_+ = (1 + \sqrt{5})^2 \approx 10.47\),在 \(0\) 处有点质量 \(1 - 1/5 = 0.8\)。
随着 \(y\) 增大(样本量相对于维数减小),谱分布越来越展宽,反映了高维噪声的放大效应。
23.4 经验谱分布与 Stieltjes 变换方法¶
方法论:矩量法适合证明存在性 → Stieltjes 变换 \(s(z) = \int \frac{d\mu(x)}{x-z}\) 才是计算利器 → 反转公式 \(\rho(x) = \frac{1}{\pi}\text{Im}\,s(x+i0^+)\) 从变换还原密度
Stieltjes 变换是研究随机矩阵极限谱分布的核心分析工具。
定义 23.9 (Stieltjes 变换)
设 \(\mu\) 为 \(\mathbb{R}\) 上的概率测度。\(\mu\) 的 Stieltjes 变换(Stieltjes transform)定义为
\(s_\mu\) 是 \(\mathbb{C}^+\) 上的全纯函数,且 \(\operatorname{Im}(s_\mu(z)) > 0\)。
定理 23.6 (Stieltjes 反转公式)
设 \(\mu\) 为概率测度,\(s(z)\) 为其 Stieltjes 变换。若 \(\mu\) 在 \((a, b)\) 上有连续密度 \(\rho\),则
更一般地,对 \(\mu\) 的连续点 \(a < b\),
证明
由 \(s(x + i\eta) = \int \frac{1}{t - x - i\eta} \, d\mu(t)\),取虚部得
注意 \(\frac{\eta}{\pi((t-x)^2 + \eta^2)}\) 是以 \(x\) 为中心、半宽 \(\eta\) 的 Cauchy(Poisson)核,当 \(\eta \to 0\) 时趋于 \(\delta(t - x)\)。因此
其中收敛在 \(\rho\) 的连续点成立。\(\blacksquare\)
定理 23.7 (Stieltjes 变换的连续性定理)
设 \(\{\mu_n\}\) 为概率测度序列,\(s_n(z)\) 为对应的 Stieltjes 变换。若对所有 \(z \in \mathbb{C}^+\),\(s_n(z) \to s(z)\),且 \(s(z)\) 是某个概率测度 \(\mu\) 的 Stieltjes 变换,则 \(\mu_n \xrightarrow{w} \mu\)(弱收敛)。
证明
Stieltjes 变换与分布函数之间存在一一对应关系(在适当条件下)。\(s_n(z) \to s(z)\) 逐点收敛蕴含了矩量的收敛(通过 Laurent 展开),进而由矩量问题的唯一性得到弱收敛。严格证明需要用到紧性论证(Helly 选择定理)以及 Stieltjes 变换唯一确定测度的性质。\(\blacksquare\)
例 23.6
用 Stieltjes 变换验证半圆律。
对 Wigner 矩阵 \(W_n\),其预解矩阵的归一化迹 \(s_n(z) = \frac{1}{n}\operatorname{tr}(W_n - zI)^{-1}\) 满足近似方程
令 \(n \to \infty\),\(s(z)\) 满足 \(s = \frac{1}{-z - s}\),即 \(s^2 + zs + 1 = 0\),解为 \(s(z) = \frac{-z + \sqrt{z^2 - 4}}{2}\),恰为半圆分布的 Stieltjes 变换。
23.5 特征值间距与排斥现象¶
微观行为:半圆律/MP律 = 宏观(密度)→ 间距统计 = 微观
排斥:\(p(s) \sim s^\beta\)(\(s \to 0\))vs Poisson \(p(s) = e^{-s}\) → 特征值"互相推开",这是随机矩阵与独立随机变量的本质区别
随机矩阵的一个显著特征是特征值之间的排斥效应:特征值倾向于互相远离,其间距统计与独立随机变量有本质区别。
定义 23.10 (标准化间距)
设 \(\lambda_1 \le \lambda_2 \le \cdots \le \lambda_n\) 为随机矩阵的有序特征值。在谱内部点 \(E\) 处,局部特征值密度为 \(\rho(E)\)。标准化间距(normalized spacing)定义为
使得标准化后间距的均值为 \(1\)。
定理 23.8 (Wigner 特征值间距统计)
对于 GUE(\(\beta = 2\))矩阵,在谱内部,标准化间距的分布趋近于 Gaudin 分布。对于小间距 \(s \to 0\),间距概率密度
其中 \(\beta\) 为 Dyson 指标(GOE: \(\beta=1\),GUE: \(\beta=2\),GSE: \(\beta=4\))。这表明小间距出现的概率极小——特征值相互排斥。
证明
以 GUE 为例。利用行列式点过程的结构:GUE 特征值构成以 sine 核
为关联核的行列式点过程。间距分布函数为
其中 \(K_t\) 是 sine 核在区间 \([0, t]\) 上的限制算子。通过 Fredholm 行列式展开,当 \(t \to 0\) 时,
故 \(p(t) \sim \pi^2 t\),即 \(p(s) \propto s^2\)(\(\beta = 2\))。\(\blacksquare\)
定理 23.9 (Wigner-Dyson-Mehta 间距分布近似)
在实际应用中,常用以下近似公式(Wigner surmise)来近似间距分布:
- GOE(\(\beta = 1\)):\(p(s) = \frac{\pi}{2} s \, e^{-\pi s^2 / 4}\);
- GUE(\(\beta = 2\)):\(p(s) = \frac{32}{\pi^2} s^2 \, e^{-4s^2 / \pi}\);
- GSE(\(\beta = 4\)):\(p(s) = \frac{2^{18}}{3^6 \pi^3} s^4 \, e^{-64 s^2 / (9\pi)}\)。
这些公式精确描述了 \(2 \times 2\) 矩阵的间距分布,对大矩阵也是极好的近似。
证明
以 GOE 的 \(2 \times 2\) 情形为例。设 \(M = \begin{pmatrix} a & b \\ b & c \end{pmatrix}\),\(a, c \sim N(0,1)\),\(b \sim N(0, 1/2)\)。特征值间距 \(s = \lambda_+ - \lambda_- = \sqrt{(a-c)^2 + 4b^2}\)。令 \(u = a - c\),\(v = 2b\),则 \(u \sim N(0, 2)\),\(v \sim N(0, 2)\),\(s = \sqrt{u^2 + v^2}\)。转化为极坐标:\(p(s) = \frac{s}{2} e^{-s^2/4}\)。经适当归一化使 \(\langle s \rangle = 1\),得到 Wigner surmise \(p(s) = \frac{\pi}{2} s \, e^{-\pi s^2/4}\)。\(\blacksquare\)
例 23.7
Poisson 与 GUE 间距统计的比较。
- 独立随机特征值(如对角随机矩阵)的间距服从指数分布 \(p(s) = e^{-s}\)(Poisson 统计),\(p(0) = 1\)。
- GUE 的间距为 \(p(s) \approx \frac{32}{\pi^2} s^2 e^{-4s^2/\pi}\),\(p(0) = 0\)。
GUE 在 \(s = 0\) 处密度为零,体现了特征值排斥;而 Poisson 统计在零间距处密度最大,说明独立特征值可以任意接近。
23.6 Tracy-Widom 分布¶
精细尺度:半圆律(宏观) → 间距(微观) → 最大特征值涨落(边缘) · \(\lambda_{\max} \approx 2 + n^{-2/3} \cdot F_\beta\) → Airy 核 + Painleve II 方程
普适性:\(F_\beta\) 不依赖于矩阵元素的具体分布,只依赖对称性类 \(\beta\) → 链接 §23.7 统计检验
半圆律描述了特征值的整体分布,而 Tracy-Widom 分布刻画了最大特征值的涨落。
定义 23.11 (Tracy-Widom 分布)
Tracy-Widom 分布(Tracy-Widom distribution)\(F_\beta\)(\(\beta = 1, 2, 4\))描述了随机矩阵最大特征值经适当中心化和缩放后的极限分布。对于 \(\beta = 2\)(GUE),分布函数为
其中 \(q(x)\) 为 Painleve II 方程 \(q''(x) = xq(x) + 2q(x)^3\) 满足 Airy 衰减条件 \(q(x) \sim \operatorname{Ai}(x)\)(\(x \to +\infty\))的唯一解。
定理 23.10 (GUE 最大特征值的 Tracy-Widom 极限)
设 \(M_n\) 为 \(n \times n\) GUE 矩阵,\(\lambda_{\max}\) 为其最大特征值。则
即 \(P\!\left( n^{2/3}(\lambda_{\max} - 2) \le s \right) \to F_2(s)\),其中 \(F_2\) 为 Tracy-Widom 分布。
证明
证明思路。 GUE 特征值构成行列式点过程,关联核为
其中 \(\varphi_k\) 为标准化 Hermite 函数。最大特征值的分布为
在谱边缘 \(t = 2 + s n^{-2/3}\) 处,利用 Plancherel-Rotach 渐近公式,\(K_n\) 在适当缩放下收敛到 Airy 核
因此 \(P(\lambda_{\max} \le 2 + sn^{-2/3}) \to \det(I - K_{\text{Airy}})|_{L^2(s, \infty)} = F_2(s)\)。\(\blacksquare\)
定理 23.11 (GOE 最大特征值的 Tracy-Widom 极限)
设 \(M_n\) 为 \(n \times n\) GOE 矩阵,则
其中 \(F_1(s) = \exp\!\left( -\frac{1}{2}\int_s^\infty q(x) \, dx \right) \cdot F_2(s)^{1/2}\),\(q\) 为上述 Painleve II 解。
证明
GOE 特征值构成 Pfaffian 点过程(而非行列式点过程)。在谱边缘缩放后,关联核收敛到 Airy 核的对称化版本。最大特征值的分布可以写成 Fredholm Pfaffian,其极限给出 \(F_1\)。\(\blacksquare\)
例 23.8
Tracy-Widom 分布的数值特征。
\(F_2\) 分布的数值特征: - 均值 \(\approx -1.771\) - 标准差 \(\approx 0.813\) - 偏度 \(\approx 0.224\) - 峰度 \(\approx 0.093\)
该分布是左偏的,这意味着最大特征值倾向于略低于其均值 \(2\)。\(F_1\) 分布比 \(F_2\) 的涨落更大(标准差 \(\approx 1.268\)),因为实对称矩阵的自由度更少。
23.7 随机矩阵在统计中的应用¶
落地:BBP 相变——信号强度 \(\theta > \sqrt{p/n}\) 时最大特征值从 MP 边缘"弹出" → 信号检测的理论阈值 · Tracy-Widom 分布替代经典 \(F\)/\(\chi^2\) 分布用于高维假设检验
随机矩阵理论为高维统计提供了理论基础和实用工具。
定义 23.12 (高维渐近框架)
在 高维渐近框架(high-dimensional asymptotic framework)中,数据维数 \(p\) 和样本量 \(n\) 同时趋于无穷,且比值 \(p/n \to y \in (0, \infty)\)。这与经典统计中 \(p\) 固定、\(n \to \infty\) 的框架根本不同。
洞察:BBP 相变揭示了一个深刻的"信息论极限"——信号强度 \(\theta\) 低于 \(\sqrt{y}\) 时,任何方法都无法从样本协方差的特征值中检测到信号
定理 23.12 (Baik-Ben Arous-Peche 相变)
BBP 相变(BBP phase transition):设总体协方差矩阵 \(\Sigma = I + \theta \mathbf{v}\mathbf{v}^T\)(秩一扰动),\(p/n \to y\)。令 \(\ell_1\) 为样本协方差矩阵 \(S_n\) 的最大特征值。则:
- 若 \(\theta < \sqrt{y}\),则 \(\ell_1 \to (1 + \sqrt{y})^2\)(与 \(\theta = 0\) 时相同);
- 若 \(\theta > \sqrt{y}\),则 \(\ell_1 \to (1 + \theta)(1 + y/\theta) > (1 + \sqrt{y})^2\)。
临界值 \(\theta_c = \sqrt{y}\) 标志着信号是否能被检测到的相变。
证明
证明思路。 利用 Stieltjes 变换方法。在 \(\Sigma = I + \theta \mathbf{v}\mathbf{v}^T\) 下,\(S_n\) 的极限谱分布仍由 Marchenko-Pastur 律描述(秩一扰动不影响极限谱分布),但最大特征值的行为取决于 \(\theta\) 的大小。
关键步骤是分析预解矩阵 \((S_n - zI)^{-1}\) 在谱边缘外的行为。当 \(z\) 在 \(\lambda_+ = (1+\sqrt{y})^2\) 外时,\(\frac{1}{n}\operatorname{tr}(S_n - zI)^{-1} \to s(z)\)。利用矩阵摄动公式,样本中最大特征值满足
其中 \(S_n^{(0)}\) 为去掉信号后的矩阵。当 \(\theta > \sqrt{y}\) 时此方程在 \((1+\sqrt{y})^2\) 外有解,即最大特征值从 Marchenko-Pastur 支撑中"弹出"。\(\blacksquare\)
例 23.9
信号检测问题。
在无线通信中,接收信号模型为 \(\mathbf{x} = \sqrt{\theta} \, s \, \mathbf{a} + \mathbf{n}\),其中 \(s\) 为信号,\(\mathbf{a}\) 为方向向量,\(\mathbf{n} \sim N(\mathbf{0}, I)\)。\(n\) 次观测后样本协方差矩阵为 \(S_n = \frac{1}{n}XX^T\)。由 BBP 相变,当信噪比 \(\theta > \sqrt{p/n}\) 时,\(S_n\) 的最大特征值将显著偏离 Marchenko-Pastur 分布的上边缘,从而可以检测到信号。
例 23.10
Roy 最大根检验的修正。
经典的 Roy 最大根检验统计量为 \(\ell_1(S_1 S_2^{-1})\)。在 \(p, n \to \infty\)、\(p/n \to y\) 的高维框架下,该统计量在零假设下的极限分布不再是经典的 Roy 分布,而是 Tracy-Widom 分布 \(F_1\)。因此检验的拒绝域应基于 Tracy-Widom 分位数而非传统表格。
23.8 自由概率简介¶
代数化:随机矩阵 \(A_n, B_n\) 独立 → 渐近自由(Voiculescu)→ \(A+B\) 的极限谱由 \(R\)-变换可加性计算 → 自由 CLT:极限是半圆分布(对比经典 CLT → 正态分布)
统一视角:半圆律 = 自由概率的中心极限定理
自由概率论(Free Probability)是研究非交换随机变量的数学理论,它为随机矩阵的渐近谱行为提供了代数化框架。
定义 23.13 (非交换概率空间)
非交换概率空间(noncommutative probability space)是一对 \((\mathcal{A}, \varphi)\),其中 \(\mathcal{A}\) 为一个含单位元的代数(不一定交换),\(\varphi: \mathcal{A} \to \mathbb{C}\) 为一个线性泛函,满足 \(\varphi(1) = 1\)(称为迹态)。\(\mathcal{A}\) 中的元素称为非交换随机变量。
定义 23.14 (自由独立性)
在非交换概率空间 \((\mathcal{A}, \varphi)\) 中,子代数 \(\mathcal{A}_1, \ldots, \mathcal{A}_k\) 称为 自由独立的(freely independent),若对于任意 \(a_j \in \mathcal{A}_{i_j}\)(\(j = 1, \ldots, m\)),满足 \(\varphi(a_j) = 0\) 且相邻元素来自不同子代数(\(i_1 \ne i_2 \ne \cdots \ne i_m\))时,有
自由独立性是经典独立性在非交换设定下的类比,但两者有本质区别。
定理 23.13 (Voiculescu 渐近自由性定理)
设 \(A_n, B_n\) 为 \(n \times n\) 独立随机矩阵,\(A_n\) 为 Wigner 矩阵,\(B_n = U_n D_n U_n^*\),其中 \(D_n\) 为确定性对角矩阵(经验谱分布收敛到 \(\nu\)),\(U_n\) 为 Haar 酉矩阵且与 \(A_n\) 独立。则当 \(n \to \infty\) 时,\(A_n\) 和 \(B_n\) 渐近自由,即关于归一化迹 \(\varphi(\cdot) = \frac{1}{n}\operatorname{tr}(\cdot)\),它们的混合矩量满足自由独立性的代数关系。
证明
证明思路。 需要验证对于中心化后的交替乘积,归一化迹趋于零。即对 \(p(A_n) = A_n^k - \varphi(A_n^k)I\) 和 \(q(B_n) = B_n^l - \varphi(B_n^l)I\),需证
关键工具是 Weingarten 积分公式,它给出了 Haar 酉矩阵元素乘积对 \(U_n\) 的积分。利用该公式,可以将上述迹展开为关于置换的求和,主要项之间的消去(由中心化保证)使得整体趋于零。\(\blacksquare\)
定义 23.15 (自由卷积)
设 \(\mu, \nu\) 为 \(\mathbb{R}\) 上的概率测度。若 \(a, b\) 为非交换概率空间中的自伴元素,分布分别为 \(\mu, \nu\),且 \(a, b\) 自由独立,则 \(a + b\) 的分布称为 \(\mu\) 和 \(\nu\) 的 自由(加法)卷积(free additive convolution),记为 \(\mu \boxplus \nu\)。
定理 23.14 (自由卷积的 \(R\)-变换)
设 \(\mu, \nu\) 为概率测度,\(G_\mu(z) = \int \frac{d\mu(x)}{z - x}\) 为 Cauchy 变换(注意与 Stieltjes 变换差一个符号),\(K_\mu\) 为其函数逆(\(G_\mu(K_\mu(w)) = w\)),\(R_\mu(w) = K_\mu(w) - 1/w\)。则
即自由卷积下 \(R\)-变换是可加的,这类似于经典独立性下特征函数的对数可加性。
证明
利用组合自由概率论(自由累积量理论)。定义自由累积量 \(\kappa_n(\mu)\) 通过矩量-累积量公式
其中求和遍历 \(\{1, \ldots, n\}\) 的所有非交叉分割 \(NC(n)\)。可以证明自由独立性等价于混合自由累积量为零。因此 \(\kappa_n(\mu \boxplus \nu) = \kappa_n(\mu) + \kappa_n(\nu)\)。而 \(R\)-变换的 Laurent 展开系数恰好是自由累积量:\(R_\mu(w) = \sum_{n=1}^\infty \kappa_n(\mu) w^{n-1}\)。\(\blacksquare\)
定理 23.15 (半圆律的自由中心极限定理)
设 \(a_1, a_2, \ldots\) 为自由独立同分布的自伴非交换随机变量,\(\varphi(a_i) = 0\),\(\varphi(a_i^2) = 1\)。则
即部分和的归一化极限分布为半圆分布。这是经典中心极限定理(极限为正态分布)的自由概率类比。
证明
由自由累积量的可加性,\(S_n = \frac{1}{\sqrt{n}}(a_1 + \cdots + a_n)\) 的自由累积量为 \(\kappa_k(S_n) = n^{1 - k/2} \kappa_k(a_1)\)。当 \(n \to \infty\) 时,\(\kappa_1(S_n) = 0\),\(\kappa_2(S_n) = 1\),\(\kappa_k(S_n) \to 0\)(\(k \ge 3\))。而半圆分布的自由累积量恰好是 \(\kappa_2 = 1\)、\(\kappa_k = 0\)(\(k \ne 2\)),这是因为半圆分布的 \(R\)-变换为 \(R(w) = w\)。\(\blacksquare\)
例 23.11
两个半圆分布的自由卷积。
设 \(\mu = \mu_{sc}(0, 1)\)(标准半圆分布,\(R_\mu(w) = w\)),\(\nu = \mu_{sc}(0, 1)\)。则
对应的分布为 \(\mu_{sc}(0, \sqrt{2})\),即半径为 \(2\sqrt{2}\)、方差为 \(2\) 的半圆分布。更一般地,方差为 \(\sigma_1^2\) 和 \(\sigma_2^2\) 的半圆分布的自由卷积仍为半圆分布,方差为 \(\sigma_1^2 + \sigma_2^2\)。
例 23.12
利用自由概率计算 \(A + B\) 的极限谱。
设 \(A_n\) 为 Wigner 矩阵(极限谱为半圆分布 \(\mu_{sc}\)),\(B_n\) 为独立的确定性矩阵经 Haar 酉共轭后的矩阵,\(B_n\) 的经验谱分布收敛到 Bernoulli 分布 \(\nu = \frac{1}{2}\delta_{-1} + \frac{1}{2}\delta_1\)。由渐近自由性,\(A_n + B_n\) 的极限谱分布为 \(\mu_{sc} \boxplus \nu\),可以通过 \(R\)-变换方法计算。\(\nu\) 的 \(R\)-变换为 \(R_\nu(w) = \frac{w}{1 - w^2}\)(利用矩量-累积量关系),故 \(R_{\mu_{sc} \boxplus \nu}(w) = w + \frac{w}{1 - w^2}\),再由反函数关系可以数值求解极限密度。
本章小结¶
本章介绍了随机矩阵理论的基本框架和核心结果:
- 高斯系综(GOE, GUE, GSE)作为随机矩阵的经典模型,其联合特征值密度具有优美的行列式/Pfaffian 结构。
- Wigner 半圆律描述了 Wigner 矩阵经验谱分布的宏观极限。
- Marchenko-Pastur 律刻画了高维样本协方差矩阵的谱行为,是高维统计的理论基石。
- Stieltjes 变换是研究极限谱分布的核心分析工具。
- 特征值排斥现象和 Wigner-Dyson 间距统计揭示了随机矩阵与独立随机变量的本质区别。
- Tracy-Widom 分布描述了最大特征值的精细涨落。
- BBP 相变为高维信号检测提供了理论阈值。
- 自由概率论为随机矩阵的渐近谱计算提供了代数化工具。