第 57 章 矩阵浓度不等式¶
前置:矩阵范数(Ch15) · 特征值(Ch6) · 随机矩阵(Ch23) · 矩阵指数(Ch13)
本章脉络:标量浓度不等式回顾 → 矩阵 Laplace 变换方法 → 矩阵 Chernoff 界 → 矩阵 Bernstein 不等式 → 矩阵 Hoeffding → 内在维度 → 应用(协方差估计、矩阵补全)
延伸:矩阵浓度不等式是随机化线性代数(随机投影、随机化 SVD)和高维统计(高维协方差估计、压缩感知的 RIP 证明)的理论基石
当我们从标量随机变量的浓度不等式推广到矩阵值随机变量时,问题的复杂度急剧上升。标量情形中,独立随机变量之和的尾概率估计是经典的 Chernoff-Hoeffding-Bernstein 理论。然而在矩阵情形中,由于矩阵乘法的非交换性,传统的矩阵生成函数方法不能直接搬用。Joel Tropp 在 2012 年的系统性工作为矩阵浓度不等式建立了一个统一的框架,其核心工具是 Lieb 的凹性定理和矩阵 Laplace 变换方法。本章将系统地展开这一理论。
我们考虑的核心问题是:给定独立的随机对称矩阵 \(X_1, X_2, \ldots, X_n \in \mathbb{R}^{d \times d}\),如何估计它们之和 \(S = \sum_{i=1}^n X_i\) 的谱范数 \(\|S\|\) 偏离其均值的概率?
57.1 标量浓度不等式回顾¶
核心问题:标量随机变量之和的尾概率如何高效地估计?这些标量结果的证明策略能否推广到矩阵情形?
我们首先回顾标量情形下的经典浓度不等式,因为矩阵浓度不等式的证明策略正是对这些标量方法的精妙推广。
定义 57.1 (亚高斯随机变量)
随机变量 \(X\) 称为亚高斯的(sub-Gaussian),参数为 \(\sigma^2\),如果 \(\mathbb{E}[X] = 0\) 且对所有 \(t \in \mathbb{R}\),
等价地,\(X\) 的尾概率满足
定义 57.2 (亚指数随机变量)
随机变量 \(X\) 称为亚指数的(sub-exponential),参数为 \((\nu^2, b)\),如果 \(\mathbb{E}[X] = 0\) 且对所有 \(|t| < 1/b\),
定理 57.1 (Markov 不等式)
设 \(X\) 是非负随机变量,则对任意 \(t > 0\),
证明
注意到 \(X \geq t \cdot \mathbf{1}_{X \geq t}\),两边取期望得
整理即得结论。\(\blacksquare\)
定理 57.2 (Chebyshev 不等式)
设 \(X\) 是有限方差的随机变量,则对任意 \(t > 0\),
证明
对非负随机变量 \((X - \mathbb{E}[X])^2\) 应用 Markov 不等式即得。\(\blacksquare\)
定理 57.3 (标量 Chernoff 方法)
设 \(X_1, \ldots, X_n\) 是独立随机变量,\(S = \sum_{i=1}^n X_i\)。对任意 \(t > 0\),
对 \(t > 0\) 取下确界,得到最优 Chernoff 界
证明
第一步使用单调性:\(e^{tS} \geq e^{tu}\) 当且仅当 \(S \geq u\)(因 \(t > 0\))。
第二步使用 Markov 不等式:
第三步使用独立性:
最后对 \(t > 0\) 取下确界以得到最紧的界。\(\blacksquare\)
例 57.1
设 \(X_1, \ldots, X_n\) 独立同分布,\(X_i \in \{-1, +1\}\) 等概率。则 \(S = \sum X_i\) 满足
因此 \(\mathbb{P}(S \geq u) \leq \inf_{t>0} e^{-tu + nt^2/2} = e^{-u^2/(2n)}\),取 \(t^* = u/n\)。 这就是 Hoeffding 界的特殊情形。
标量 Chernoff 方法的核心在于两个步骤:(1) 用指数函数将尾概率转化为矩生成函数的估计;(2) 利用独立性将联合矩生成函数分解为各个分量的乘积。推广到矩阵情形时,第 (2) 步是主要障碍——矩阵指数函数不满足 \(e^{A+B} = e^A e^B\)(除非 \(A\), \(B\) 对易),因此需要更精细的工具。
57.2 矩阵 Laplace 变换方法¶
核心问题:如何将标量 Chernoff 方法中 \(\mathbb{E}[e^{tS}]\) 的分析推广到矩阵情形 \(\mathbb{E}[e^{t\sum X_i}]\)?Lieb 的凹性定理如何解决矩阵指数的非交换性困难?
矩阵 Laplace 变换方法的核心思想是:用矩阵矩生成函数 \(\mathbb{E}[\exp(\theta S)]\) 的迹来控制谱范数的尾概率。
定义 57.3 (矩阵矩生成函数)
对随机对称矩阵 \(X \in \mathbb{R}^{d \times d}\),其矩阵矩生成函数定义为
其中 \(e^{\theta X}\) 是矩阵指数,期望逐元素取。
定理 57.4 (矩阵 Markov 不等式)
设 \(Y\) 是随机对称矩阵。对任意 \(t > 0\),
证明
固定 \(\theta > 0\)。由谱映射定理,\(\lambda_{\max}(Y) \geq t\) 当且仅当 \(\lambda_{\max}(e^{\theta Y}) \geq e^{\theta t}\)。
注意到 \(\lambda_{\max}(e^{\theta Y}) \leq \mathrm{tr}(e^{\theta Y})\)(因为矩阵指数是半正定的,所有特征值非负)。因此
对非负随机变量 \(\mathrm{tr}(e^{\theta Y})\) 应用标量 Markov 不等式:
利用迹与期望交换,得
对 \(\theta > 0\) 取下确界即得。\(\blacksquare\)
关键的技术困难在于:当 \(Y = \sum_{i=1}^n X_i\) 时,如何利用 \(X_i\) 的独立性来简化 \(\mathrm{tr}\,\mathbb{E}[\exp(\theta \sum X_i)]\)?Lieb 的凹性定理为此提供了完美的工具。
定理 57.5 (Lieb 凹性定理, 1973)
设 \(H\) 是固定的对称矩阵。则映射
在正定矩阵锥上是凹函数。
此定理的证明需要用到矩阵分析的深层结果,我们在此略去。其在矩阵浓度不等式中的关键应用是以下推论。
定理 57.6 (迹指数的次可加性)
设 \(X_1, X_2, \ldots, X_n\) 是独立的随机对称矩阵。则
证明
我们对 \(n\) 进行归纳。\(n=1\) 时等式成立。
设结论对 \(n-1\) 成立。记 \(H = \sum_{i=1}^{n-1} X_i\)(是 \(X_1, \ldots, X_{n-1}\) 的函数,与 \(X_n\) 独立)。
对固定的 \(H\),令 \(A = e^{X_n}\),则 \(X_n = \log A\),由 Lieb 凹性定理,\(\mathrm{tr}\,\exp(H + \log A)\) 关于 \(A\) 是凹的。因此由 Jensen 不等式:
注意这里 \(\mathbb{E}_{X_n}\) 只对 \(X_n\) 取期望,\(H\) 视为固定。
然后对 \(H\) 取期望,利用归纳假设,得到
将 \(\log \mathbb{E}[e^{X_n}]\) 视为确定性矩阵,对前 \(n-1\) 项之和加上此确定性矩阵再次应用归纳假设,最终得到
定理 57.7 (矩阵 Laplace 变换主界)
设 \(X_1, \ldots, X_n\) 是独立的随机对称矩阵,\(S = \sum_{i=1}^n X_i\)。则对任意 \(t > 0\),
证明
结合定理 57.4(矩阵 Markov 不等式)和定理 57.6(迹指数的次可加性)即得。\(\blacksquare\)
例 57.2
考虑 \(X_1, \ldots, X_n\) 独立同分布,每个 \(X_i\) 是 \(d \times d\) 的对称随机矩阵。主界变为
进一步,若能证明 \(\log \mathbb{E}[e^{\theta X_1}] \preceq g(\theta) I\)(\(g\) 为标量函数),则
从而 \(\mathbb{P}(\lambda_{\max}(S) \geq t) \leq d \cdot \inf_{\theta > 0} e^{-\theta t + n g(\theta)}\),将问题化归为标量优化。
57.3 矩阵 Chernoff 界¶
核心问题:对于独立随机半正定矩阵之和,其最大(或最小)特征值如何集中在期望附近?
矩阵 Chernoff 界处理的是独立随机半正定矩阵之和的谱范数集中性。
定义 57.4 (矩阵 Chernoff 设定)
设 \(X_1, \ldots, X_n\) 是独立的随机半正定矩阵,满足 \(\lambda_{\max}(X_i) \leq R\)(几乎处处),\(i = 1, \ldots, n\)。记
定理 57.8 (矩阵 Chernoff 界——上尾)
在定义 57.4 的设定下,对任意 \(\delta > 0\),
证明
第一步:矩生成函数估计。 由 \(0 \preceq X_i \preceq RI\),利用凸性引理:对 \(\theta > 0\),
这是因为 \(X_i/R\) 的特征值在 \([0,1]\) 中,\(e^{\theta R x}\) 在 \([0,1]\) 上是凸函数,所以被端点连线所控制:
对 \(X_i/R\) 用谱映射定理,得到上述矩阵不等式。
第二步:取期望。
利用 \(I + A \preceq e^A\)(对半正定 \(A\)),得
因此
第三步:代入主界。
其最大特征值为 \(\frac{e^{\theta R}-1}{R} \mu_{\max}\)。因此
第四步:优化 \(\theta\)。 由矩阵 Laplace 变换主界,
取 \(t = (1+\delta)\mu_{\max}\),令 \(\theta^* = \frac{\ln(1+\delta)}{R}\),代入得
定理 57.9 (矩阵 Chernoff 界——下尾)
在定义 57.4 的设定下,记 \(\mu_{\min} = \lambda_{\min}(\mathbb{E}[S])\)。对 \(\delta \in [0,1)\),
例 57.3
随机列选择。 设 \(A \in \mathbb{R}^{d \times N}\),列为 \(a_1, \ldots, a_N\)。独立随机选取 \(n\) 个列(有放回),形成 \(X_i = \frac{N}{n} a_{s_i} a_{s_i}^\top\)。则
实际上更精确地,\(\mathbb{E}[S] = AA^\top\)。如果 \(\|a_j\|^2 \leq R'\) 对所有 \(j\),则 \(\lambda_{\max}(X_i) \leq \frac{N}{n}R'\)。矩阵 Chernoff 界告诉我们选取 \(n = O(\frac{d R'}{\epsilon^2 \lambda_{\min}(AA^\top)}\log d)\) 个列就能以高概率保证 \(S\) 的特征值在 \(\mathbb{E}[S]\) 的 \((1\pm\epsilon)\) 倍范围内。
57.4 矩阵 Bernstein 不等式¶
核心问题:对于有界的独立随机矩阵(不一定半正定),如何估计其和的谱范数的尾概率?
矩阵 Bernstein 不等式是矩阵浓度不等式理论中最常用的结果之一,它处理的是有界的中心化独立随机矩阵之和。
定义 57.5 (矩阵方差)
设 \(X_1, \ldots, X_n\) 是独立的随机对称矩阵,\(\mathbb{E}[X_i] = 0\)。矩阵方差统计量定义为
这是标量方差 \(\mathrm{Var}(\sum X_i) = \sum \mathrm{Var}(X_i)\) 的自然矩阵推广。
定理 57.10 (矩阵 Bernstein 不等式)
设 \(X_1, \ldots, X_n\) 是独立的随机对称矩阵,维度为 \(d \times d\),满足
记 \(\sigma^2 = \|\sum_{i=1}^n \mathbb{E}[X_i^2]\|\)。则对所有 \(t \geq 0\),
证明
第一步:对称化。 注意 \(\|\sum X_i\| = \max\{\lambda_{\max}(\sum X_i),\, -\lambda_{\min}(\sum X_i)\}\),因此
我们只需对 \(\lambda_{\max}(S)\) 进行估计,对 \(-S\) 的估计完全类似。
第二步:矩生成函数控制。 对中心化、有界随机矩阵 \(X_i\)(\(\mathbb{E}[X_i]=0\),\(\|X_i\|\leq R\)),有
其中 \(g(\theta) = \frac{e^{\theta R} - \theta R - 1}{R^2} \leq \frac{\theta^2/2}{1 - \theta R/3}\)(对 \(0 < \theta < 3/R\))。
这一步的关键是利用 \(\mathbb{E}[X_i] = 0\) 和 \(\|X_i\| \leq R\) 来控制高阶矩:
因此
第三步:代入主界。
其谱范数为 \(g(\theta) \sigma^2\)。由矩阵 Laplace 变换主界:
第四步:优化 \(\theta\)。 利用 \(g(\theta) \leq \frac{\theta^2/2}{1-\theta R/3}\),需最小化
令 \(h'(\theta) = 0\),可以验证取 \(\theta^* = \frac{t}{\sigma^2 + Rt/3}\) 时,
因此
对 \(-S\) 同理得到相同的界,合并后得到
定理 57.11 (矩阵 Bernstein 的推论——两种特殊情形)
在定理 57.10 的条件下:
(a) 亚高斯情形(当 \(t \leq \sigma^2/R\) 时):
(b) 亚指数情形(当 \(t \geq \sigma^2/R\) 时):
例 57.4
Wigner 矩阵的谱范数。 设 \(W\) 是 \(d \times d\) 的 Wigner 矩阵:\(W_{ij} = W_{ji}\) 独立(\(i \leq j\)),\(\mathbb{E}[W_{ij}] = 0\),\(|W_{ij}| \leq 1\)。
将 \(W\) 分解为独立随机矩阵之和:\(W = \sum_{i \leq j} X_{ij}\),其中 \(X_{ij}\) 是只在 \((i,j)\) 和 \((j,i)\) 位置非零的矩阵。
计算矩阵方差:\(\sigma^2 = \|\sum_{i \leq j} \mathbb{E}[X_{ij}^2]\| \leq d\)(可以精确验证),\(R = 1\)。
矩阵 Bernstein 给出 \(\mathbb{P}(\|W\| \geq t) \leq 2d \cdot \exp(-\frac{t^2/2}{d + t/3})\)。
取 \(t = C\sqrt{d \log d}\),得到 \(\|W\| = O(\sqrt{d \log d})\) 以高概率成立。 (实际上通过更精细的分析可以证明 \(\|W\| \leq 2\sqrt{d} + o(\sqrt{d})\)。)
57.5 矩阵 Hoeffding 不等式¶
核心问题:当随机矩阵的范围已知但不一定中心化时,是否有更简洁的浓度界?
定理 57.12 (矩阵 Hoeffding 不等式)
设 \(X_1, \ldots, X_n\) 是独立的随机对称矩阵,维度为 \(d \times d\),满足
其中 \(A_1, \ldots, A_n\) 是确定性的半正定矩阵。记 \(\sigma^2 = \|\sum_{i=1}^n A_i^2\|\)。则
证明
由条件 \(X_i^2 \preceq A_i^2\),有 \(\|X_i\| \leq \|A_i\|\)。更重要的是,可以证明
其中 \(\psi(u) = \frac{e^u + e^{-u} - 2}{u^2}\)。利用 Hoeffding 引理的矩阵版本,可以得到更紧的界
代入矩阵 Laplace 变换主界:
等待——这里的常数需要修正。精确的 Hoeffding 矩阵引理给出的常数为 \(1/8\) 而非 \(1/2\)(取决于 \(X_i\) 的值域是 \([-A_i, A_i]\) 还是 \(X_i^2 \preceq A_i^2\))。
最终合并上下尾,得到
例 57.5
随机符号矩阵。 设 \(A_1, \ldots, A_n\) 是固定的对称矩阵,\(\epsilon_1, \ldots, \epsilon_n\) 是独立 Rademacher 随机变量(\(\pm 1\) 等概率)。考虑
则 \(X_i = \epsilon_i A_i\) 满足 \(\mathbb{E}[X_i] = 0\),\(X_i^2 = A_i^2\)。矩阵 Hoeffding 给出
定理 57.13 (矩阵 Azuma 不等式)
设 \(\{Y_k\}_{k=0}^n\) 是一个关于滤子 \(\{\mathcal{F}_k\}\) 的矩阵值鞅(即 \(\mathbb{E}[Y_k \mid \mathcal{F}_{k-1}] = Y_{k-1}\)),差分 \(D_k = Y_k - Y_{k-1}\) 满足 \(D_k^2 \preceq A_k^2\)(几乎处处)。则
57.6 内在维度框架¶
核心问题:矩阵 Bernstein 不等式中的维度因子 \(d\)(或 \(2d\))在 \(d\) 很大但矩阵"有效秩"远小于 \(d\) 时过于保守。能否用更精细的量来替代?
矩阵浓度不等式中出现的维度因子 \(d\) 往往是对维度的一个粗糙替代。当随机矩阵之和的期望矩阵具有低有效秩时,这个因子可以大大改善。
定义 57.6 (内在维度)
对半正定矩阵 \(M \succeq 0\)(\(M \neq 0\)),其内在维度定义为
总是有 \(1 \leq \mathrm{intdim}(M) \leq \mathrm{rank}(M) \leq d\)。
内在维度衡量的是 \(M\) 的特征值的"平坦程度"。当 \(M = I_d\) 时,\(\mathrm{intdim}(M) = d\)。当 \(M\) 的特征值高度集中在一个方向上时,\(\mathrm{intdim}(M) \approx 1\)。
定理 57.14 (内在维度矩阵 Bernstein 不等式)
在定理 57.10 的条件下,记 \(V = \sum_{i=1}^n \mathbb{E}[X_i^2]\),\(\sigma^2 = \|V\|\)。则
更精确地,对所有 \(t \geq 0\),
证明
关键改进在于更精细地估计 \(\mathrm{tr}\,\exp(\sum \log \mathbb{E}[e^{\theta X_i}])\)。
在标准矩阵 Bernstein 证明中,我们使用了粗糙的估计
但实际上,设 \(V\) 的特征值为 \(\lambda_1 \geq \cdots \geq \lambda_d \geq 0\),则
由于 \(\lambda_i \leq \sigma^2\),指数项 \(\leq 1\),所以 \(\sum e^{g(\theta)(\lambda_i - \sigma^2)} \leq d\)。但更精细地,
通过仔细处理(利用 \(\mathrm{tr}(V) = \mathrm{intdim}(V) \cdot \sigma^2\) 和 \(e^x\) 的凸性),可以将维度因子 \(d\) 替换为 \(O(\mathrm{intdim}(V))\)。
完整的证明参见 Tropp (2015), Chapter 7。\(\blacksquare\)
例 57.6
秩-\(r\) 投影的扰动。 设 \(P\) 是 \(d \times d\) 的秩-\(r\) 正交投影矩阵,\(X_i\) 是关于 \(P\) 的小扰动。则 \(V = \sum \mathbb{E}[X_i^2]\) 的有效秩通常为 \(O(r)\) 而非 \(d\)。此时内在维度框架给出的界中,\(\ln d\) 被替换为 \(\ln r\),在 \(r \ll d\) 时显著改善。
定义 57.7 (有效秩)
矩阵 \(M \succeq 0\) 的有效秩(effective rank)有多种定义,最常用的一种是
另一种基于熵的定义:
定理 57.15 (普适性)
矩阵浓度不等式的一个重要特征是普适性(universality):只要独立随机矩阵的前两阶矩和一致界条件相同,无论具体的分布如何,浓度不等式给出的尾概率界都是相同的。
形式化地,设 \(\{X_i\}\) 和 \(\{Y_i\}\) 是两组独立随机对称矩阵,若
则矩阵 Bernstein 不等式对 \(\sum X_i\) 和 \(\sum Y_i\) 给出完全相同的尾界。
57.7 应用¶
核心问题:矩阵浓度不等式如何在高维统计和随机化线性代数中提供理论保证?
57.7.1 协方差矩阵估计¶
定理 57.16 (样本协方差矩阵的浓度)
设 \(z_1, \ldots, z_n \in \mathbb{R}^d\) 是独立同分布的随机向量,\(\mathbb{E}[z_i] = 0\),\(\Sigma = \mathbb{E}[z_i z_i^\top]\),且 \(\|z_i\| \leq M\)(几乎处处)。记样本协方差矩阵
则对 \(t > 0\),
特别地,当 \(n \geq C\frac{M^2}{\epsilon^2}(d + \ln(1/\delta))\)(\(C\) 为绝对常数)时,以概率至少 \(1-\delta\),\(\|\hat{\Sigma}_n - \Sigma\| \leq \epsilon \|\Sigma\|\)。
证明
令 \(X_i = \frac{1}{n}(z_i z_i^\top - \Sigma)\)。则 \(\mathbb{E}[X_i] = 0\),\(\|X_i\| \leq \frac{1}{n}(\|z_i\|^2 + \|\Sigma\|) \leq \frac{M^2 + \|\Sigma\|}{n} \leq \frac{2M^2}{n} = R\)(因 \(\|\Sigma\| \leq M^2\))。
矩阵方差:
因此 \(\sigma^2 \leq \frac{M^2 \|\Sigma\|}{n}\)。代入矩阵 Bernstein 不等式即得。\(\blacksquare\)
例 57.7
高维协方差估计的样本复杂度。 在 \(d = 1000\) 维中,如果 \(\|z_i\| \leq 100\),要保证 \(\|\hat{\Sigma}_n - \Sigma\| \leq 0.1\|\Sigma\|\) 以概率 \(0.99\) 成立,需要的样本量约为
这似乎很大,但如果 \(\Sigma\) 的内在维度为 \(r \ll d\)(例如数据近似在 \(r\) 维子空间中),则利用内在维度框架可以将 \(d\) 替换为 \(r\),大大降低样本需求。
57.7.2 矩阵补全的理论保证¶
定理 57.17 (矩阵补全的信息论界——概要)
设 \(M \in \mathbb{R}^{d_1 \times d_2}\) 是秩-\(r\) 矩阵,满足标准不相干性条件。如果我们均匀随机地观测 \(m\) 个条目,且
则核范数最小化可以以高概率精确恢复 \(M\)。
证明的关键步骤之一是用矩阵 Bernstein 不等式来控制采样算子与其期望之间的偏差。
57.7.3 Johnson-Lindenstrauss 引理的矩阵证明¶
定理 57.18 (Johnson-Lindenstrauss 引理)
对任意 \(\epsilon \in (0,1)\) 和 \(n\) 个点 \(x_1, \ldots, x_n \in \mathbb{R}^d\),存在线性映射 \(f: \mathbb{R}^d \to \mathbb{R}^k\),\(k = O(\epsilon^{-2} \log n)\),使得对所有 \(i, j\),
证明(矩阵浓度方法概要)
取 \(f(x) = \frac{1}{\sqrt{k}} \Pi x\),其中 \(\Pi \in \mathbb{R}^{k \times d}\) 的元素独立标准正态。
固定 \(u = x_i - x_j\),\(\|u\| = 1\)。则 \(\|f(u)\|^2 = \frac{1}{k}\sum_{\ell=1}^k (\pi_\ell^\top u)^2\),其中 \(\pi_\ell\) 是 \(\Pi\) 的行。
考虑随机矩阵 \(Z_\ell = (\pi_\ell^\top u)^2 \cdot uu^\top - uu^\top\)。这是一个秩-1 的随机矩阵。
利用矩阵 Bernstein 不等式,可以证明
取 \(k \geq C\epsilon^{-2}\ln n\) 并对所有 \(\binom{n}{2}\) 对取 union bound 即得。\(\blacksquare\)
例 57.8
随机投影的实际应用。 在文本分类中,文档的 TF-IDF 表示可能是 \(d = 10^6\) 维的稀疏向量。通过 JL 引理,可以随机投影到 \(k = O(\log n / \epsilon^2)\) 维(例如 \(n = 10^5\) 个文档,\(\epsilon = 0.1\) 时 \(k \approx 1200\))而保持近似的距离结构。矩阵浓度不等式确保了此降维过程的理论可靠性。
57.7.4 矩阵浓度不等式的总结与比较¶
下面总结本章主要结果的适用条件和界的形式:
| 不等式 | 条件 | 界 | 维度因子 |
|---|---|---|---|
| 矩阵 Chernoff | \(0 \preceq X_i \preceq RI\) | \(d \cdot [\frac{e^\delta}{(1+\delta)^{1+\delta}}]^{\mu/R}\) | \(d\) |
| 矩阵 Bernstein | \(\mathbb{E}[X_i]=0\), \(\|X_i\|\leq R\) | \(2d \cdot e^{-t^2/(2\sigma^2+2Rt/3)}\) | \(2d\) |
| 矩阵 Hoeffding | \(\mathbb{E}[X_i]=0\), \(X_i^2 \preceq A_i^2\) | \(2d \cdot e^{-t^2/(8\sigma^2)}\) | \(2d\) |
| 内在维度 Bernstein | 同 Bernstein + 内在维度 | \(4\,\text{intdim} \cdot e^{-t^2/(2\sigma^2+2Rt/3)}\) | \(\text{intdim}\) |
所有这些结果都建立在同一个框架上:矩阵 Markov 不等式 + 迹指数次可加性(来自 Lieb 定理)+ 对单个随机矩阵的矩生成函数的谱估计。它们的区别仅在于对 \(\mathbb{E}[e^{\theta X_i}]\) 的不同估计方式。
本章要点总结:
- 矩阵浓度不等式将标量尾概率估计推广到矩阵值随机变量。
- 核心工具是 Lieb 凹性定理,它克服了矩阵指数的非交换性障碍。
- 矩阵 Bernstein 不等式是最常用的工具,形式类似标量 Bernstein 但带有维度因子。
- 内在维度框架将维度因子从 \(d\) 降低为矩阵方差的有效秩。
- 这些工具在协方差估计、矩阵补全、随机投影等问题中提供了精确的理论保证。