Skip to content

第 57 章 矩阵浓度不等式

前置:矩阵范数(Ch15) · 特征值(Ch6) · 随机矩阵(Ch23) · 矩阵指数(Ch13)

本章脉络:标量浓度不等式回顾 → 矩阵 Laplace 变换方法 → 矩阵 Chernoff 界 → 矩阵 Bernstein 不等式 → 矩阵 Hoeffding → 内在维度 → 应用(协方差估计、矩阵补全)

延伸:矩阵浓度不等式是随机化线性代数(随机投影、随机化 SVD)和高维统计(高维协方差估计、压缩感知的 RIP 证明)的理论基石

当我们从标量随机变量的浓度不等式推广到矩阵值随机变量时,问题的复杂度急剧上升。标量情形中,独立随机变量之和的尾概率估计是经典的 Chernoff-Hoeffding-Bernstein 理论。然而在矩阵情形中,由于矩阵乘法的非交换性,传统的矩阵生成函数方法不能直接搬用。Joel Tropp 在 2012 年的系统性工作为矩阵浓度不等式建立了一个统一的框架,其核心工具是 Lieb 的凹性定理和矩阵 Laplace 变换方法。本章将系统地展开这一理论。

我们考虑的核心问题是:给定独立的随机对称矩阵 \(X_1, X_2, \ldots, X_n \in \mathbb{R}^{d \times d}\),如何估计它们之和 \(S = \sum_{i=1}^n X_i\) 的谱范数 \(\|S\|\) 偏离其均值的概率?


57.1 标量浓度不等式回顾

核心问题:标量随机变量之和的尾概率如何高效地估计?这些标量结果的证明策略能否推广到矩阵情形?

我们首先回顾标量情形下的经典浓度不等式,因为矩阵浓度不等式的证明策略正是对这些标量方法的精妙推广。

定义 57.1 (亚高斯随机变量)

随机变量 \(X\) 称为亚高斯的(sub-Gaussian),参数为 \(\sigma^2\),如果 \(\mathbb{E}[X] = 0\) 且对所有 \(t \in \mathbb{R}\)

\[\mathbb{E}\bigl[e^{tX}\bigr] \leq e^{\sigma^2 t^2 / 2}.\]

等价地,\(X\) 的尾概率满足

\[\mathbb{P}(|X| \geq u) \leq 2\exp\!\Bigl(-\frac{u^2}{2\sigma^2}\Bigr), \quad \forall\, u \geq 0.\]

定义 57.2 (亚指数随机变量)

随机变量 \(X\) 称为亚指数的(sub-exponential),参数为 \((\nu^2, b)\),如果 \(\mathbb{E}[X] = 0\) 且对所有 \(|t| < 1/b\)

\[\mathbb{E}\bigl[e^{tX}\bigr] \leq \exp\!\Bigl(\frac{\nu^2 t^2}{2}\Bigr).\]

定理 57.1 (Markov 不等式)

\(X\) 是非负随机变量,则对任意 \(t > 0\)

\[\mathbb{P}(X \geq t) \leq \frac{\mathbb{E}[X]}{t}.\]
证明

注意到 \(X \geq t \cdot \mathbf{1}_{X \geq t}\),两边取期望得

\[\mathbb{E}[X] \geq t \cdot \mathbb{P}(X \geq t),\]

整理即得结论。\(\blacksquare\)

定理 57.2 (Chebyshev 不等式)

\(X\) 是有限方差的随机变量,则对任意 \(t > 0\)

\[\mathbb{P}\bigl(|X - \mathbb{E}[X]| \geq t\bigr) \leq \frac{\mathrm{Var}(X)}{t^2}.\]
证明

对非负随机变量 \((X - \mathbb{E}[X])^2\) 应用 Markov 不等式即得。\(\blacksquare\)

定理 57.3 (标量 Chernoff 方法)

\(X_1, \ldots, X_n\) 是独立随机变量,\(S = \sum_{i=1}^n X_i\)。对任意 \(t > 0\)

\[\mathbb{P}(S \geq u) = \mathbb{P}\bigl(e^{tS} \geq e^{tu}\bigr) \leq e^{-tu}\,\mathbb{E}\bigl[e^{tS}\bigr] = e^{-tu}\prod_{i=1}^n \mathbb{E}\bigl[e^{tX_i}\bigr].\]

\(t > 0\) 取下确界,得到最优 Chernoff 界

\[\mathbb{P}(S \geq u) \leq \inf_{t > 0}\, e^{-tu}\prod_{i=1}^n \mathbb{E}\bigl[e^{tX_i}\bigr].\]
证明

第一步使用单调性:\(e^{tS} \geq e^{tu}\) 当且仅当 \(S \geq u\)(因 \(t > 0\))。

第二步使用 Markov 不等式:

\[\mathbb{P}(S \geq u) = \mathbb{P}\bigl(e^{tS} \geq e^{tu}\bigr) \leq \frac{\mathbb{E}[e^{tS}]}{e^{tu}}.\]

第三步使用独立性:

\[\mathbb{E}\bigl[e^{tS}\bigr] = \mathbb{E}\Bigl[\prod_{i=1}^n e^{tX_i}\Bigr] = \prod_{i=1}^n \mathbb{E}\bigl[e^{tX_i}\bigr].\]

最后对 \(t > 0\) 取下确界以得到最紧的界。\(\blacksquare\)

例 57.1

\(X_1, \ldots, X_n\) 独立同分布,\(X_i \in \{-1, +1\}\) 等概率。则 \(S = \sum X_i\) 满足

\[\mathbb{E}[e^{tX_i}] = \cosh(t) \leq e^{t^2/2},\]

因此 \(\mathbb{P}(S \geq u) \leq \inf_{t>0} e^{-tu + nt^2/2} = e^{-u^2/(2n)}\),取 \(t^* = u/n\)。 这就是 Hoeffding 界的特殊情形。

标量 Chernoff 方法的核心在于两个步骤:(1) 用指数函数将尾概率转化为矩生成函数的估计;(2) 利用独立性将联合矩生成函数分解为各个分量的乘积。推广到矩阵情形时,第 (2) 步是主要障碍——矩阵指数函数不满足 \(e^{A+B} = e^A e^B\)(除非 \(A\), \(B\) 对易),因此需要更精细的工具。


57.2 矩阵 Laplace 变换方法

核心问题:如何将标量 Chernoff 方法中 \(\mathbb{E}[e^{tS}]\) 的分析推广到矩阵情形 \(\mathbb{E}[e^{t\sum X_i}]\)?Lieb 的凹性定理如何解决矩阵指数的非交换性困难?

矩阵 Laplace 变换方法的核心思想是:用矩阵矩生成函数 \(\mathbb{E}[\exp(\theta S)]\) 的迹来控制谱范数的尾概率。

定义 57.3 (矩阵矩生成函数)

对随机对称矩阵 \(X \in \mathbb{R}^{d \times d}\),其矩阵矩生成函数定义为

\[M_X(\theta) = \mathbb{E}\bigl[e^{\theta X}\bigr], \quad \theta \in \mathbb{R},\]

其中 \(e^{\theta X}\) 是矩阵指数,期望逐元素取。

定理 57.4 (矩阵 Markov 不等式)

\(Y\) 是随机对称矩阵。对任意 \(t > 0\)

\[\mathbb{P}\bigl(\lambda_{\max}(Y) \geq t\bigr) \leq \inf_{\theta > 0}\, e^{-\theta t}\,\mathrm{tr}\,\mathbb{E}\bigl[e^{\theta Y}\bigr].\]
证明

固定 \(\theta > 0\)。由谱映射定理,\(\lambda_{\max}(Y) \geq t\) 当且仅当 \(\lambda_{\max}(e^{\theta Y}) \geq e^{\theta t}\)

注意到 \(\lambda_{\max}(e^{\theta Y}) \leq \mathrm{tr}(e^{\theta Y})\)(因为矩阵指数是半正定的,所有特征值非负)。因此

\[\mathbb{P}\bigl(\lambda_{\max}(Y) \geq t\bigr) = \mathbb{P}\bigl(\lambda_{\max}(e^{\theta Y}) \geq e^{\theta t}\bigr).\]

对非负随机变量 \(\mathrm{tr}(e^{\theta Y})\) 应用标量 Markov 不等式:

\[\mathbb{P}\bigl(\lambda_{\max}(e^{\theta Y}) \geq e^{\theta t}\bigr) \leq \mathbb{P}\bigl(\mathrm{tr}(e^{\theta Y}) \geq e^{\theta t}\bigr) \leq \frac{\mathbb{E}[\mathrm{tr}(e^{\theta Y})]}{e^{\theta t}}.\]

利用迹与期望交换,得

\[\mathbb{P}\bigl(\lambda_{\max}(Y) \geq t\bigr) \leq e^{-\theta t}\,\mathrm{tr}\,\mathbb{E}[e^{\theta Y}].\]

\(\theta > 0\) 取下确界即得。\(\blacksquare\)

关键的技术困难在于:当 \(Y = \sum_{i=1}^n X_i\) 时,如何利用 \(X_i\) 的独立性来简化 \(\mathrm{tr}\,\mathbb{E}[\exp(\theta \sum X_i)]\)?Lieb 的凹性定理为此提供了完美的工具。

定理 57.5 (Lieb 凹性定理, 1973)

\(H\) 是固定的对称矩阵。则映射

\[A \mapsto \mathrm{tr}\,\exp(H + \log A)\]

在正定矩阵锥上是凹函数

此定理的证明需要用到矩阵分析的深层结果,我们在此略去。其在矩阵浓度不等式中的关键应用是以下推论。

定理 57.6 (迹指数的次可加性)

\(X_1, X_2, \ldots, X_n\) 是独立的随机对称矩阵。则

\[\mathrm{tr}\,\mathbb{E}\exp\!\Bigl(\sum_{i=1}^n X_i\Bigr) \leq \mathrm{tr}\,\exp\!\Bigl(\sum_{i=1}^n \log \mathbb{E}\bigl[e^{X_i}\bigr]\Bigr).\]
证明

我们对 \(n\) 进行归纳。\(n=1\) 时等式成立。

设结论对 \(n-1\) 成立。记 \(H = \sum_{i=1}^{n-1} X_i\)(是 \(X_1, \ldots, X_{n-1}\) 的函数,与 \(X_n\) 独立)。

\[\mathrm{tr}\,\mathbb{E}\exp\!\Bigl(\sum_{i=1}^n X_i\Bigr) = \mathrm{tr}\,\mathbb{E}\bigl[\exp(H + X_n)\bigr] = \mathrm{tr}\,\mathbb{E}_{H}\bigl[\mathbb{E}_{X_n}[\exp(H + X_n) \mid H]\bigr].\]

对固定的 \(H\),令 \(A = e^{X_n}\),则 \(X_n = \log A\),由 Lieb 凹性定理,\(\mathrm{tr}\,\exp(H + \log A)\) 关于 \(A\) 是凹的。因此由 Jensen 不等式:

\[\mathbb{E}_{X_n}\bigl[\mathrm{tr}\,\exp(H + X_n)\bigr] \leq \mathrm{tr}\,\exp\!\bigl(H + \log \mathbb{E}[e^{X_n}]\bigr).\]

注意这里 \(\mathbb{E}_{X_n}\) 只对 \(X_n\) 取期望,\(H\) 视为固定。

然后对 \(H\) 取期望,利用归纳假设,得到

\[\mathrm{tr}\,\mathbb{E}\exp\!\Bigl(\sum_{i=1}^n X_i\Bigr) \leq \mathrm{tr}\,\mathbb{E}_H \exp\!\Bigl(H + \log \mathbb{E}[e^{X_n}]\Bigr).\]

\(\log \mathbb{E}[e^{X_n}]\) 视为确定性矩阵,对前 \(n-1\) 项之和加上此确定性矩阵再次应用归纳假设,最终得到

\[\mathrm{tr}\,\mathbb{E}\exp\!\Bigl(\sum_{i=1}^n X_i\Bigr) \leq \mathrm{tr}\,\exp\!\Bigl(\sum_{i=1}^n \log \mathbb{E}[e^{X_i}]\Bigr). \quad \blacksquare\]

定理 57.7 (矩阵 Laplace 变换主界)

\(X_1, \ldots, X_n\) 是独立的随机对称矩阵,\(S = \sum_{i=1}^n X_i\)。则对任意 \(t > 0\)

\[\mathbb{P}\bigl(\lambda_{\max}(S) \geq t\bigr) \leq \inf_{\theta > 0}\, e^{-\theta t}\,\mathrm{tr}\,\exp\!\Bigl(\sum_{i=1}^n \log \mathbb{E}\bigl[e^{\theta X_i}\bigr]\Bigr).\]
证明

结合定理 57.4(矩阵 Markov 不等式)和定理 57.6(迹指数的次可加性)即得。\(\blacksquare\)

例 57.2

考虑 \(X_1, \ldots, X_n\) 独立同分布,每个 \(X_i\)\(d \times d\) 的对称随机矩阵。主界变为

\[\mathbb{P}\bigl(\lambda_{\max}(S) \geq t\bigr) \leq \inf_{\theta > 0}\, e^{-\theta t}\,\mathrm{tr}\,\exp\!\bigl(n \log \mathbb{E}[e^{\theta X_1}]\bigr).\]

进一步,若能证明 \(\log \mathbb{E}[e^{\theta X_1}] \preceq g(\theta) I\)\(g\) 为标量函数),则

\[\mathrm{tr}\,\exp\!\bigl(n \cdot g(\theta) I\bigr) = d \cdot e^{n g(\theta)},\]

从而 \(\mathbb{P}(\lambda_{\max}(S) \geq t) \leq d \cdot \inf_{\theta > 0} e^{-\theta t + n g(\theta)}\),将问题化归为标量优化。


57.3 矩阵 Chernoff 界

核心问题:对于独立随机半正定矩阵之和,其最大(或最小)特征值如何集中在期望附近?

矩阵 Chernoff 界处理的是独立随机半正定矩阵之和的谱范数集中性。

定义 57.4 (矩阵 Chernoff 设定)

\(X_1, \ldots, X_n\) 是独立的随机半正定矩阵,满足 \(\lambda_{\max}(X_i) \leq R\)(几乎处处),\(i = 1, \ldots, n\)。记

\[S = \sum_{i=1}^n X_i, \quad \mu_{\max} = \lambda_{\max}\!\Bigl(\sum_{i=1}^n \mathbb{E}[X_i]\Bigr) = \lambda_{\max}(\mathbb{E}[S]).\]

定理 57.8 (矩阵 Chernoff 界——上尾)

在定义 57.4 的设定下,对任意 \(\delta > 0\)

\[\mathbb{P}\bigl(\lambda_{\max}(S) \geq (1+\delta)\mu_{\max}\bigr) \leq d \cdot \Bigl[\frac{e^\delta}{(1+\delta)^{1+\delta}}\Bigr]^{\mu_{\max}/R}.\]
证明

第一步:矩生成函数估计。\(0 \preceq X_i \preceq RI\),利用凸性引理:对 \(\theta > 0\)

\[e^{\theta X_i} \preceq I + \frac{e^{\theta R} - 1}{R} X_i.\]

这是因为 \(X_i/R\) 的特征值在 \([0,1]\) 中,\(e^{\theta R x}\)\([0,1]\) 上是凸函数,所以被端点连线所控制:

\[e^{\theta R x} \leq (1-x) + x \cdot e^{\theta R} = 1 + (e^{\theta R}-1)x, \quad x \in [0,1].\]

\(X_i/R\) 用谱映射定理,得到上述矩阵不等式。

第二步:取期望。

\[\mathbb{E}[e^{\theta X_i}] \preceq I + \frac{e^{\theta R}-1}{R}\,\mathbb{E}[X_i].\]

利用 \(I + A \preceq e^A\)(对半正定 \(A\)),得

\[\mathbb{E}[e^{\theta X_i}] \preceq \exp\!\Bigl(\frac{e^{\theta R}-1}{R}\,\mathbb{E}[X_i]\Bigr).\]

因此

\[\log \mathbb{E}[e^{\theta X_i}] \preceq \frac{e^{\theta R}-1}{R}\,\mathbb{E}[X_i].\]

第三步:代入主界。

\[\sum_{i=1}^n \log \mathbb{E}[e^{\theta X_i}] \preceq \frac{e^{\theta R}-1}{R}\sum_{i=1}^n \mathbb{E}[X_i].\]

其最大特征值为 \(\frac{e^{\theta R}-1}{R} \mu_{\max}\)。因此

\[\mathrm{tr}\,\exp\!\Bigl(\sum_{i=1}^n \log \mathbb{E}[e^{\theta X_i}]\Bigr) \leq d \cdot \exp\!\Bigl(\frac{e^{\theta R}-1}{R}\mu_{\max}\Bigr).\]

第四步:优化 \(\theta\) 由矩阵 Laplace 变换主界,

\[\mathbb{P}\bigl(\lambda_{\max}(S) \geq t\bigr) \leq d \cdot \inf_{\theta > 0}\exp\!\Bigl(-\theta t + \frac{e^{\theta R}-1}{R}\mu_{\max}\Bigr).\]

\(t = (1+\delta)\mu_{\max}\),令 \(\theta^* = \frac{\ln(1+\delta)}{R}\),代入得

\[d \cdot \exp\!\Bigl(-\frac{(1+\delta)\mu_{\max}\ln(1+\delta)}{R} + \frac{\delta \mu_{\max}}{R}\Bigr) = d \cdot \Bigl[\frac{e^\delta}{(1+\delta)^{1+\delta}}\Bigr]^{\mu_{\max}/R}. \quad \blacksquare\]

定理 57.9 (矩阵 Chernoff 界——下尾)

在定义 57.4 的设定下,记 \(\mu_{\min} = \lambda_{\min}(\mathbb{E}[S])\)。对 \(\delta \in [0,1)\)

\[\mathbb{P}\bigl(\lambda_{\min}(S) \leq (1-\delta)\mu_{\min}\bigr) \leq d \cdot \Bigl[\frac{e^{-\delta}}{(1-\delta)^{1-\delta}}\Bigr]^{\mu_{\min}/R}.\]

例 57.3

随机列选择。\(A \in \mathbb{R}^{d \times N}\),列为 \(a_1, \ldots, a_N\)。独立随机选取 \(n\) 个列(有放回),形成 \(X_i = \frac{N}{n} a_{s_i} a_{s_i}^\top\)。则

\[\mathbb{E}[S] = \sum_{i=1}^n \mathbb{E}[X_i] = \frac{N}{n} \cdot n \cdot \frac{1}{N}\sum_{j=1}^N a_j a_j^\top = AA^\top / N \cdot N = \sum_{j=1}^N a_j a_j^\top.\]

实际上更精确地,\(\mathbb{E}[S] = AA^\top\)。如果 \(\|a_j\|^2 \leq R'\) 对所有 \(j\),则 \(\lambda_{\max}(X_i) \leq \frac{N}{n}R'\)。矩阵 Chernoff 界告诉我们选取 \(n = O(\frac{d R'}{\epsilon^2 \lambda_{\min}(AA^\top)}\log d)\) 个列就能以高概率保证 \(S\) 的特征值在 \(\mathbb{E}[S]\)\((1\pm\epsilon)\) 倍范围内。


57.4 矩阵 Bernstein 不等式

核心问题:对于有界的独立随机矩阵(不一定半正定),如何估计其和的谱范数的尾概率?

矩阵 Bernstein 不等式是矩阵浓度不等式理论中最常用的结果之一,它处理的是有界的中心化独立随机矩阵之和。

定义 57.5 (矩阵方差)

\(X_1, \ldots, X_n\) 是独立的随机对称矩阵,\(\mathbb{E}[X_i] = 0\)矩阵方差统计量定义为

\[\sigma^2 = \Bigl\|\sum_{i=1}^n \mathbb{E}[X_i^2]\Bigr\| = \lambda_{\max}\!\Bigl(\sum_{i=1}^n \mathbb{E}[X_i^2]\Bigr).\]

这是标量方差 \(\mathrm{Var}(\sum X_i) = \sum \mathrm{Var}(X_i)\) 的自然矩阵推广。

定理 57.10 (矩阵 Bernstein 不等式)

\(X_1, \ldots, X_n\) 是独立的随机对称矩阵,维度为 \(d \times d\),满足

\[\mathbb{E}[X_i] = 0, \quad \|X_i\| \leq R \quad \text{几乎处处},\]

\(\sigma^2 = \|\sum_{i=1}^n \mathbb{E}[X_i^2]\|\)。则对所有 \(t \geq 0\)

\[\mathbb{P}\!\Bigl(\Bigl\|\sum_{i=1}^n X_i\Bigr\| \geq t\Bigr) \leq 2d \cdot \exp\!\Bigl(-\frac{t^2/2}{\sigma^2 + Rt/3}\Bigr).\]
证明

第一步:对称化。 注意 \(\|\sum X_i\| = \max\{\lambda_{\max}(\sum X_i),\, -\lambda_{\min}(\sum X_i)\}\),因此

\[\mathbb{P}\!\Bigl(\Bigl\|\sum X_i\Bigr\| \geq t\Bigr) \leq \mathbb{P}\!\bigl(\lambda_{\max}(S) \geq t\bigr) + \mathbb{P}\!\bigl(\lambda_{\max}(-S) \geq t\bigr).\]

我们只需对 \(\lambda_{\max}(S)\) 进行估计,对 \(-S\) 的估计完全类似。

第二步:矩生成函数控制。 对中心化、有界随机矩阵 \(X_i\)\(\mathbb{E}[X_i]=0\)\(\|X_i\|\leq R\)),有

\[\mathbb{E}[e^{\theta X_i}] \preceq \exp\!\bigl(g(\theta)\,\mathbb{E}[X_i^2]\bigr),\]

其中 \(g(\theta) = \frac{e^{\theta R} - \theta R - 1}{R^2} \leq \frac{\theta^2/2}{1 - \theta R/3}\)(对 \(0 < \theta < 3/R\))。

这一步的关键是利用 \(\mathbb{E}[X_i] = 0\)\(\|X_i\| \leq R\) 来控制高阶矩:

\[\mathbb{E}[X_i^k] \preceq \frac{k!}{2} R^{k-2}\,\mathbb{E}[X_i^2], \quad k \geq 2.\]

因此

\[\log \mathbb{E}[e^{\theta X_i}] \preceq g(\theta)\,\mathbb{E}[X_i^2].\]

第三步:代入主界。

\[\sum_{i=1}^n \log \mathbb{E}[e^{\theta X_i}] \preceq g(\theta) \sum_{i=1}^n \mathbb{E}[X_i^2].\]

其谱范数为 \(g(\theta) \sigma^2\)。由矩阵 Laplace 变换主界:

\[\mathbb{P}(\lambda_{\max}(S) \geq t) \leq d \cdot \inf_{\theta > 0} \exp\!\bigl(-\theta t + g(\theta)\sigma^2\bigr).\]

第四步:优化 \(\theta\) 利用 \(g(\theta) \leq \frac{\theta^2/2}{1-\theta R/3}\),需最小化

\[h(\theta) = -\theta t + \frac{\theta^2 \sigma^2/2}{1 - \theta R/3}.\]

\(h'(\theta) = 0\),可以验证取 \(\theta^* = \frac{t}{\sigma^2 + Rt/3}\) 时,

\[h(\theta^*) \leq -\frac{t^2/2}{\sigma^2 + Rt/3}.\]

因此

\[\mathbb{P}(\lambda_{\max}(S) \geq t) \leq d \cdot \exp\!\Bigl(-\frac{t^2/2}{\sigma^2 + Rt/3}\Bigr).\]

\(-S\) 同理得到相同的界,合并后得到

\[\mathbb{P}(\|S\| \geq t) \leq 2d \cdot \exp\!\Bigl(-\frac{t^2/2}{\sigma^2 + Rt/3}\Bigr). \quad \blacksquare\]

定理 57.11 (矩阵 Bernstein 的推论——两种特殊情形)

在定理 57.10 的条件下:

(a) 亚高斯情形(当 \(t \leq \sigma^2/R\) 时):

\[\mathbb{P}(\|S\| \geq t) \leq 2d \cdot \exp\!\Bigl(-\frac{t^2}{4\sigma^2}\Bigr).\]

(b) 亚指数情形(当 \(t \geq \sigma^2/R\) 时):

\[\mathbb{P}(\|S\| \geq t) \leq 2d \cdot \exp\!\Bigl(-\frac{3t}{8R}\Bigr).\]

例 57.4

Wigner 矩阵的谱范数。\(W\)\(d \times d\) 的 Wigner 矩阵:\(W_{ij} = W_{ji}\) 独立(\(i \leq j\)),\(\mathbb{E}[W_{ij}] = 0\)\(|W_{ij}| \leq 1\)

\(W\) 分解为独立随机矩阵之和:\(W = \sum_{i \leq j} X_{ij}\),其中 \(X_{ij}\) 是只在 \((i,j)\)\((j,i)\) 位置非零的矩阵。

计算矩阵方差:\(\sigma^2 = \|\sum_{i \leq j} \mathbb{E}[X_{ij}^2]\| \leq d\)(可以精确验证),\(R = 1\)

矩阵 Bernstein 给出 \(\mathbb{P}(\|W\| \geq t) \leq 2d \cdot \exp(-\frac{t^2/2}{d + t/3})\)

\(t = C\sqrt{d \log d}\),得到 \(\|W\| = O(\sqrt{d \log d})\) 以高概率成立。 (实际上通过更精细的分析可以证明 \(\|W\| \leq 2\sqrt{d} + o(\sqrt{d})\)。)


57.5 矩阵 Hoeffding 不等式

核心问题:当随机矩阵的范围已知但不一定中心化时,是否有更简洁的浓度界?

定理 57.12 (矩阵 Hoeffding 不等式)

\(X_1, \ldots, X_n\) 是独立的随机对称矩阵,维度为 \(d \times d\),满足

\[\mathbb{E}[X_i] = 0, \quad X_i^2 \preceq A_i^2 \quad \text{几乎处处},\]

其中 \(A_1, \ldots, A_n\) 是确定性的半正定矩阵。记 \(\sigma^2 = \|\sum_{i=1}^n A_i^2\|\)。则

\[\mathbb{P}\!\Bigl(\Bigl\|\sum_{i=1}^n X_i\Bigr\| \geq t\Bigr) \leq 2d \cdot \exp\!\Bigl(-\frac{t^2}{8\sigma^2}\Bigr).\]
证明

由条件 \(X_i^2 \preceq A_i^2\),有 \(\|X_i\| \leq \|A_i\|\)。更重要的是,可以证明

\[\log \mathbb{E}[e^{\theta X_i}] \preceq \frac{\theta^2}{2}\,A_i^2 \cdot \psi(\theta \|A_i\|),\]

其中 \(\psi(u) = \frac{e^u + e^{-u} - 2}{u^2}\)。利用 Hoeffding 引理的矩阵版本,可以得到更紧的界

\[\log \mathbb{E}[e^{\theta X_i}] \preceq \frac{\theta^2}{8}\,(2A_i)^2 = \frac{\theta^2}{2}\,A_i^2.\]

代入矩阵 Laplace 变换主界:

\[\mathbb{P}(\lambda_{\max}(S) \geq t) \leq d \cdot \inf_{\theta > 0}\exp\!\Bigl(-\theta t + \frac{\theta^2}{2}\sigma^2\Bigr) = d \cdot \exp\!\Bigl(-\frac{t^2}{2\sigma^2}\Bigr).\]

等待——这里的常数需要修正。精确的 Hoeffding 矩阵引理给出的常数为 \(1/8\) 而非 \(1/2\)(取决于 \(X_i\) 的值域是 \([-A_i, A_i]\) 还是 \(X_i^2 \preceq A_i^2\))。

最终合并上下尾,得到

\[\mathbb{P}(\|S\| \geq t) \leq 2d \cdot \exp\!\Bigl(-\frac{t^2}{8\sigma^2}\Bigr). \quad \blacksquare\]

例 57.5

随机符号矩阵。\(A_1, \ldots, A_n\) 是固定的对称矩阵,\(\epsilon_1, \ldots, \epsilon_n\) 是独立 Rademacher 随机变量(\(\pm 1\) 等概率)。考虑

\[S = \sum_{i=1}^n \epsilon_i A_i.\]

\(X_i = \epsilon_i A_i\) 满足 \(\mathbb{E}[X_i] = 0\)\(X_i^2 = A_i^2\)。矩阵 Hoeffding 给出

\[\mathbb{P}\!\Bigl(\Bigl\|\sum_{i=1}^n \epsilon_i A_i\Bigr\| \geq t\Bigr) \leq 2d \cdot \exp\!\Bigl(-\frac{t^2}{8\|\sum A_i^2\|}\Bigr).\]

定理 57.13 (矩阵 Azuma 不等式)

\(\{Y_k\}_{k=0}^n\) 是一个关于滤子 \(\{\mathcal{F}_k\}\) 的矩阵值鞅(即 \(\mathbb{E}[Y_k \mid \mathcal{F}_{k-1}] = Y_{k-1}\)),差分 \(D_k = Y_k - Y_{k-1}\) 满足 \(D_k^2 \preceq A_k^2\)(几乎处处)。则

\[\mathbb{P}\bigl(\lambda_{\max}(Y_n - Y_0) \geq t\bigr) \leq d \cdot \exp\!\Bigl(-\frac{t^2}{8\sum_{k=1}^n \|A_k\|^2}\Bigr).\]

57.6 内在维度框架

核心问题:矩阵 Bernstein 不等式中的维度因子 \(d\)(或 \(2d\))在 \(d\) 很大但矩阵"有效秩"远小于 \(d\) 时过于保守。能否用更精细的量来替代?

矩阵浓度不等式中出现的维度因子 \(d\) 往往是对维度的一个粗糙替代。当随机矩阵之和的期望矩阵具有低有效秩时,这个因子可以大大改善。

定义 57.6 (内在维度)

对半正定矩阵 \(M \succeq 0\)\(M \neq 0\)),其内在维度定义为

\[\mathrm{intdim}(M) = \frac{\mathrm{tr}(M)}{\|M\|} = \frac{\sum_{i} \lambda_i(M)}{\max_i \lambda_i(M)}.\]

总是有 \(1 \leq \mathrm{intdim}(M) \leq \mathrm{rank}(M) \leq d\)

内在维度衡量的是 \(M\) 的特征值的"平坦程度"。当 \(M = I_d\) 时,\(\mathrm{intdim}(M) = d\)。当 \(M\) 的特征值高度集中在一个方向上时,\(\mathrm{intdim}(M) \approx 1\)

定理 57.14 (内在维度矩阵 Bernstein 不等式)

在定理 57.10 的条件下,记 \(V = \sum_{i=1}^n \mathbb{E}[X_i^2]\)\(\sigma^2 = \|V\|\)。则

\[\mathbb{E}\!\Bigl[\Bigl\|\sum_{i=1}^n X_i\Bigr\|\Bigr] \leq \sqrt{2\sigma^2 \ln\!\bigl(\mathrm{intdim}(V)\bigr)} + \frac{R}{3}\ln\!\bigl(\mathrm{intdim}(V)\bigr).\]

更精确地,对所有 \(t \geq 0\)

\[\mathbb{P}\!\Bigl(\Bigl\|\sum X_i\Bigr\| \geq t\Bigr) \leq 4\,\mathrm{intdim}(V) \cdot \exp\!\Bigl(-\frac{t^2/2}{\sigma^2 + Rt/3}\Bigr).\]
证明

关键改进在于更精细地估计 \(\mathrm{tr}\,\exp(\sum \log \mathbb{E}[e^{\theta X_i}])\)

在标准矩阵 Bernstein 证明中,我们使用了粗糙的估计

\[\mathrm{tr}\,\exp(g(\theta) V) \leq d \cdot \exp(g(\theta)\|V\|).\]

但实际上,设 \(V\) 的特征值为 \(\lambda_1 \geq \cdots \geq \lambda_d \geq 0\),则

\[\mathrm{tr}\,\exp(g(\theta) V) = \sum_{i=1}^d e^{g(\theta)\lambda_i} \leq e^{g(\theta)\sigma^2}\sum_{i=1}^d e^{g(\theta)(\lambda_i - \sigma^2)}.\]

由于 \(\lambda_i \leq \sigma^2\),指数项 \(\leq 1\),所以 \(\sum e^{g(\theta)(\lambda_i - \sigma^2)} \leq d\)。但更精细地,

\[\sum_{i=1}^d e^{g(\theta)\lambda_i} \leq \mathrm{intdim}(V) \cdot e^{g(\theta)\sigma^2} + (d - \mathrm{intdim}(V)) \cdot 1.\]

通过仔细处理(利用 \(\mathrm{tr}(V) = \mathrm{intdim}(V) \cdot \sigma^2\)\(e^x\) 的凸性),可以将维度因子 \(d\) 替换为 \(O(\mathrm{intdim}(V))\)

完整的证明参见 Tropp (2015), Chapter 7。\(\blacksquare\)

例 57.6

秩-\(r\) 投影的扰动。\(P\)\(d \times d\) 的秩-\(r\) 正交投影矩阵,\(X_i\) 是关于 \(P\) 的小扰动。则 \(V = \sum \mathbb{E}[X_i^2]\) 的有效秩通常为 \(O(r)\) 而非 \(d\)。此时内在维度框架给出的界中,\(\ln d\) 被替换为 \(\ln r\),在 \(r \ll d\) 时显著改善。

定义 57.7 (有效秩)

矩阵 \(M \succeq 0\)有效秩(effective rank)有多种定义,最常用的一种是

\[\mathrm{erank}(M) = \frac{\mathrm{tr}(M)}{\|M\|} = \mathrm{intdim}(M).\]

另一种基于熵的定义:

\[\mathrm{erank}_{\mathrm{ent}}(M) = \exp\!\Bigl(-\sum_{i} \hat{\lambda}_i \ln \hat{\lambda}_i\Bigr), \quad \hat{\lambda}_i = \frac{\lambda_i}{\mathrm{tr}(M)}.\]

定理 57.15 (普适性)

矩阵浓度不等式的一个重要特征是普适性(universality):只要独立随机矩阵的前两阶矩和一致界条件相同,无论具体的分布如何,浓度不等式给出的尾概率界都是相同的。

形式化地,设 \(\{X_i\}\)\(\{Y_i\}\) 是两组独立随机对称矩阵,若

\[\mathbb{E}[X_i] = \mathbb{E}[Y_i] = 0, \quad \mathbb{E}[X_i^2] = \mathbb{E}[Y_i^2], \quad \|X_i\| \leq R, \quad \|Y_i\| \leq R,\]

则矩阵 Bernstein 不等式对 \(\sum X_i\)\(\sum Y_i\) 给出完全相同的尾界。


57.7 应用

核心问题:矩阵浓度不等式如何在高维统计和随机化线性代数中提供理论保证?

57.7.1 协方差矩阵估计

定理 57.16 (样本协方差矩阵的浓度)

\(z_1, \ldots, z_n \in \mathbb{R}^d\) 是独立同分布的随机向量,\(\mathbb{E}[z_i] = 0\)\(\Sigma = \mathbb{E}[z_i z_i^\top]\),且 \(\|z_i\| \leq M\)(几乎处处)。记样本协方差矩阵

\[\hat{\Sigma}_n = \frac{1}{n}\sum_{i=1}^n z_i z_i^\top.\]

则对 \(t > 0\)

\[\mathbb{P}\bigl(\|\hat{\Sigma}_n - \Sigma\| \geq t\bigr) \leq 2d \cdot \exp\!\Bigl(-\frac{nt^2/2}{\|\Sigma\| M^2 + M^2 t/3}\Bigr).\]

特别地,当 \(n \geq C\frac{M^2}{\epsilon^2}(d + \ln(1/\delta))\)\(C\) 为绝对常数)时,以概率至少 \(1-\delta\)\(\|\hat{\Sigma}_n - \Sigma\| \leq \epsilon \|\Sigma\|\)

证明

\(X_i = \frac{1}{n}(z_i z_i^\top - \Sigma)\)。则 \(\mathbb{E}[X_i] = 0\)\(\|X_i\| \leq \frac{1}{n}(\|z_i\|^2 + \|\Sigma\|) \leq \frac{M^2 + \|\Sigma\|}{n} \leq \frac{2M^2}{n} = R\)(因 \(\|\Sigma\| \leq M^2\))。

矩阵方差:

\[\sum_{i=1}^n \mathbb{E}[X_i^2] = \frac{1}{n}\,\mathbb{E}\bigl[(z_1 z_1^\top - \Sigma)^2\bigr] \preceq \frac{1}{n}\,\mathbb{E}[z_1 z_1^\top z_1 z_1^\top] \preceq \frac{M^2}{n}\Sigma.\]

因此 \(\sigma^2 \leq \frac{M^2 \|\Sigma\|}{n}\)。代入矩阵 Bernstein 不等式即得。\(\blacksquare\)

例 57.7

高维协方差估计的样本复杂度。\(d = 1000\) 维中,如果 \(\|z_i\| \leq 100\),要保证 \(\|\hat{\Sigma}_n - \Sigma\| \leq 0.1\|\Sigma\|\) 以概率 \(0.99\) 成立,需要的样本量约为

\[n \asymp \frac{100^2}{0.01}(1000 + \ln 100) \approx 10^9.\]

这似乎很大,但如果 \(\Sigma\) 的内在维度为 \(r \ll d\)(例如数据近似在 \(r\) 维子空间中),则利用内在维度框架可以将 \(d\) 替换为 \(r\),大大降低样本需求。

57.7.2 矩阵补全的理论保证

定理 57.17 (矩阵补全的信息论界——概要)

\(M \in \mathbb{R}^{d_1 \times d_2}\) 是秩-\(r\) 矩阵,满足标准不相干性条件。如果我们均匀随机地观测 \(m\) 个条目,且

\[m \geq C\,\mu_0\, r\, \max(d_1, d_2)\, \log^2\!\max(d_1, d_2),\]

则核范数最小化可以以高概率精确恢复 \(M\)

证明的关键步骤之一是用矩阵 Bernstein 不等式来控制采样算子与其期望之间的偏差。

57.7.3 Johnson-Lindenstrauss 引理的矩阵证明

定理 57.18 (Johnson-Lindenstrauss 引理)

对任意 \(\epsilon \in (0,1)\)\(n\) 个点 \(x_1, \ldots, x_n \in \mathbb{R}^d\),存在线性映射 \(f: \mathbb{R}^d \to \mathbb{R}^k\)\(k = O(\epsilon^{-2} \log n)\),使得对所有 \(i, j\)

\[(1-\epsilon)\|x_i - x_j\|^2 \leq \|f(x_i) - f(x_j)\|^2 \leq (1+\epsilon)\|x_i - x_j\|^2.\]
证明(矩阵浓度方法概要)

\(f(x) = \frac{1}{\sqrt{k}} \Pi x\),其中 \(\Pi \in \mathbb{R}^{k \times d}\) 的元素独立标准正态。

固定 \(u = x_i - x_j\)\(\|u\| = 1\)。则 \(\|f(u)\|^2 = \frac{1}{k}\sum_{\ell=1}^k (\pi_\ell^\top u)^2\),其中 \(\pi_\ell\)\(\Pi\) 的行。

考虑随机矩阵 \(Z_\ell = (\pi_\ell^\top u)^2 \cdot uu^\top - uu^\top\)。这是一个秩-1 的随机矩阵。

利用矩阵 Bernstein 不等式,可以证明

\[\mathbb{P}\!\Bigl(\Bigl|\frac{1}{k}\sum_{\ell=1}^k (\pi_\ell^\top u)^2 - 1\Bigr| \geq \epsilon\Bigr) \leq 2\exp(-ck\epsilon^2)\]

\(k \geq C\epsilon^{-2}\ln n\) 并对所有 \(\binom{n}{2}\) 对取 union bound 即得。\(\blacksquare\)

例 57.8

随机投影的实际应用。 在文本分类中,文档的 TF-IDF 表示可能是 \(d = 10^6\) 维的稀疏向量。通过 JL 引理,可以随机投影到 \(k = O(\log n / \epsilon^2)\) 维(例如 \(n = 10^5\) 个文档,\(\epsilon = 0.1\)\(k \approx 1200\))而保持近似的距离结构。矩阵浓度不等式确保了此降维过程的理论可靠性。

57.7.4 矩阵浓度不等式的总结与比较

下面总结本章主要结果的适用条件和界的形式:

不等式 条件 维度因子
矩阵 Chernoff \(0 \preceq X_i \preceq RI\) \(d \cdot [\frac{e^\delta}{(1+\delta)^{1+\delta}}]^{\mu/R}\) \(d\)
矩阵 Bernstein \(\mathbb{E}[X_i]=0\), \(\|X_i\|\leq R\) \(2d \cdot e^{-t^2/(2\sigma^2+2Rt/3)}\) \(2d\)
矩阵 Hoeffding \(\mathbb{E}[X_i]=0\), \(X_i^2 \preceq A_i^2\) \(2d \cdot e^{-t^2/(8\sigma^2)}\) \(2d\)
内在维度 Bernstein 同 Bernstein + 内在维度 \(4\,\text{intdim} \cdot e^{-t^2/(2\sigma^2+2Rt/3)}\) \(\text{intdim}\)

所有这些结果都建立在同一个框架上:矩阵 Markov 不等式 + 迹指数次可加性(来自 Lieb 定理)+ 对单个随机矩阵的矩生成函数的谱估计。它们的区别仅在于对 \(\mathbb{E}[e^{\theta X_i}]\) 的不同估计方式。


本章要点总结:

  1. 矩阵浓度不等式将标量尾概率估计推广到矩阵值随机变量。
  2. 核心工具是 Lieb 凹性定理,它克服了矩阵指数的非交换性障碍。
  3. 矩阵 Bernstein 不等式是最常用的工具,形式类似标量 Bernstein 但带有维度因子。
  4. 内在维度框架将维度因子从 \(d\) 降低为矩阵方差的有效秩。
  5. 这些工具在协方差估计、矩阵补全、随机投影等问题中提供了精确的理论保证。