第 42 章不变子空间与扰动¶

前置：向量空间(Ch4) · 线性变换(Ch5) · 特征值(Ch6) · Jordan形(Ch12) · 范数与扰动(Ch15)

本章脉络：不变子空间定义 → 不变子空间格 → 超不变子空间 → 约化子空间 → 互补不变子空间 → 子空间之间的角度 → Davis-Kahan sin Θ 定理 → 谱投影扰动

延伸：Davis-Kahan 定理是现代统计学和机器学习中 PCA 扰动分析的理论基石；不变子空间理论在算子代数（von Neumann 代数中的投影格）中有无穷维推广

不变子空间是线性代数中最核心的结构概念之一。当我们研究一个线性变换 $T: V \to V$ 时，寻找使 $T$ 的作用"封闭"的子空间，本质上是在寻找将 $T$ 分解为更简单部分的途径。特征空间是最基本的不变子空间，而 Jordan 标准形理论则展示了如何通过广义特征空间实现矩阵的精细分解。

本章从不变子空间的基本定义出发，建立不变子空间格的代数结构，深入讨论超不变子空间与约化子空间这两类特殊的不变子空间，然后转向一个截然不同但极其重要的方向——子空间之间的"距离"和"角度"。Davis-Kahan sin Θ 定理将不变子空间的扰动与矩阵的扰动精确联系起来，它不仅是矩阵扰动理论的瑰宝，更是现代数据科学中主成分分析（PCA）理论保证的数学基础。

42.1 不变子空间的定义与基本性质¶

核心问题：什么样的子空间在线性变换的作用下保持"封闭"？不变子空间的全体构成怎样的代数结构？

定义 42.1 ($T$-不变子空间)

设 $V$ 是域 $\mathbb{F}$ 上的向量空间，$T: V \to V$ 是线性变换。子空间 $\mathcal{M} \subseteq V$ 称为 $T$-不变子空间（$T$-invariant subspace），如果 $$T(\mathcal{M}) \subseteq \mathcal{M},$$ 即对任意 $v \in \mathcal{M}$，有 $Tv \in \mathcal{M}$。

等价地，$T$ 在 $\mathcal{M}$ 上的限制 $T|_{\mathcal{M}}: \mathcal{M} \to \mathcal{M}$ 是良定义的线性变换。

在矩阵语言中，如果 $A \in \mathbb{F}^{n \times n}$ 且 $\mathcal{M}$ 是 $\mathbb{F}^n$ 的一个 $k$ 维 $A$-不变子空间，取 $\mathcal{M}$ 的一组基排成矩阵 $X \in \mathbb{F}^{n \times k}$，则 $A$-不变性等价于存在矩阵 $B \in \mathbb{F}^{k \times k}$ 使得

\[AX = XB.\]

矩阵 $B$ 就是 $A|_{\mathcal{M}}$ 在所选基下的矩阵表示。

例 42.1 (基本不变子空间)

设 $A \in \mathbb{C}^{n \times n}$。以下子空间都是 $A$-不变的：

平凡子空间：$\{0\}$ 和 $\mathbb{C}^n$。
特征空间：若 $\lambda$ 是 $A$ 的特征值，则 $\ker(A - \lambda I)$ 是 $A$-不变的。
广义特征空间：$\ker(A - \lambda I)^k$ 对每个 $k \geq 1$ 都是 $A$-不变的。
值域与核：$\operatorname{Im}(A)$ 和 $\ker(A)$ 都是 $A$-不变的。
$A$-循环子空间：对任意 $v \in \mathbb{C}^n$，$\mathcal{K}(A, v) = \operatorname{span}\{v, Av, A^2v, \ldots\}$ 是 $A$-不变的。
多项式子空间：若 $p(t)$ 是多项式，则 $\ker(p(A))$ 和 $\operatorname{Im}(p(A))$ 都是 $A$-不变的。

定理 42.1 (不变子空间的等价刻画)

设 $A \in \mathbb{F}^{n \times n}$，$\mathcal{M}$ 是 $\mathbb{F}^n$ 的 $k$ 维子空间。以下条件等价：

$\mathcal{M}$ 是 $A$-不变的。
存在 $B \in \mathbb{F}^{k \times k}$，使得 $AX = XB$，其中 $X$ 的列是 $\mathcal{M}$ 的一组基。
存在可逆矩阵 $P$ 使得 $P^{-1}AP$ 具有分块上三角形式 $$P^{-1}AP = \begin{pmatrix} B & C \\ 0 & D \end{pmatrix},$$ 其中 $B \in \mathbb{F}^{k \times k}$，且 $P$ 的前 $k$ 列张成 $\mathcal{M}$。

证明

(1) $\Rightarrow$ (2)：设 $\{x_1, \ldots, x_k\}$ 是 $\mathcal{M}$ 的一组基。由 $A$-不变性，每个 $Ax_j \in \mathcal{M}$，因此 $$Ax_j = \sum_{i=1}^{k} b_{ij} x_i, \quad j = 1, \ldots, k.$$ 令 $X = (x_1, \ldots, x_k)$，$B = (b_{ij})$，则 $AX = XB$。

(2) $\Rightarrow$ (3)：将 $X$ 的列扩充为 $\mathbb{F}^n$ 的一组基，设扩充部分构成矩阵 $Y$。令 $P = (X \mid Y)$，则 $P$ 可逆，且 $$P^{-1}AP = \begin{pmatrix} B & C \\ 0 & D \end{pmatrix},$$ 这是因为 $AP = P \cdot P^{-1}AP$ 的前 $k$ 列给出 $AX = XB + Y \cdot 0 = XB$。

(3) $\Rightarrow$ (1)：设 $P = (X \mid Y)$，其中 $X$ 的列张成 $\mathcal{M}$。由 $P^{-1}AP$ 的形式，$AX = XB$，因此对任意 $v = Xc \in \mathcal{M}$，$Av = AXc = XBc \in \mathcal{M}$。$\blacksquare$

定义 42.2 (不变子空间格 $\operatorname{Lat}(T)$)

设 $T: V \to V$ 是线性变换。$T$ 的所有不变子空间构成的集合，按子空间包含关系 $\subseteq$ 构成偏序集，记为 $\operatorname{Lat}(T)$，称为 $T$ 的不变子空间格（invariant subspace lattice）。

在 $\operatorname{Lat}(T)$ 中，格运算定义为：

交（meet）：$\mathcal{M}_1 \wedge \mathcal{M}_2 = \mathcal{M}_1 \cap \mathcal{M}_2$，
并（join）：$\mathcal{M}_1 \vee \mathcal{M}_2 = \mathcal{M}_1 + \mathcal{M}_2$。

定理 42.2 ($\operatorname{Lat}(T)$ 构成完备格)

对任意线性变换 $T: V \to V$，$\operatorname{Lat}(T)$ 在上述运算下构成完备格。具体地：

若 $\{\mathcal{M}_\alpha\}_{\alpha \in \Lambda}$ 是 $T$-不变子空间的任意族，则 $\bigcap_\alpha \mathcal{M}_\alpha$ 和 $\sum_\alpha \mathcal{M}_\alpha$ 都是 $T$-不变的。
最小元素是 $\{0\}$，最大元素是 $V$。

证明

(1) 设 $v \in \bigcap_\alpha \mathcal{M}_\alpha$。则对每个 $\alpha$，$v \in \mathcal{M}_\alpha$，因此 $Tv \in \mathcal{M}_\alpha$（因为 $\mathcal{M}_\alpha$ 是 $T$-不变的）。从而 $Tv \in \bigcap_\alpha \mathcal{M}_\alpha$。

对于和空间，设 $v = \sum_{i=1}^{m} v_{\alpha_i}$，其中 $v_{\alpha_i} \in \mathcal{M}_{\alpha_i}$。则 $Tv = \sum_{i=1}^{m} Tv_{\alpha_i}$，其中每个 $Tv_{\alpha_i} \in \mathcal{M}_{\alpha_i}$。因此 $Tv \in \sum_\alpha \mathcal{M}_\alpha$。

(2) 显然 $T(\{0\}) = \{0\} \subseteq \{0\}$，且 $T(V) \subseteq V$。$\blacksquare$

例 42.2 (不变子空间格的例子)

考虑 $A = \begin{pmatrix} 2 & 1 \\ 0 & 3 \end{pmatrix}$ 在 $\mathbb{C}^2$ 上的作用。

特征值为 $\lambda_1 = 2$，$\lambda_2 = 3$。对应特征向量分别为 $v_1 = \begin{pmatrix} 1 \\ 0 \end{pmatrix}$，$v_2 = \begin{pmatrix} 1 \\ 1 \end{pmatrix}$。

$\operatorname{Lat}(A) = \bigl\{ \{0\},\; \operatorname{span}\{v_1\},\; \operatorname{span}\{v_2\},\; \mathbb{C}^2 \bigr\}$。

这是因为 $\mathbb{C}^2$ 中任何一维子空间若是 $A$-不变的，其生成元必须是特征向量。由于 $A$ 有两个不同的特征值，恰好有两个一维不变子空间。

而对于 $B = \begin{pmatrix} 2 & 1 \\ 0 & 2 \end{pmatrix}$（单一特征值 $\lambda = 2$，Jordan 块大小 2），唯一的一维不变子空间是 $\operatorname{span}\left\{\begin{pmatrix} 1 \\ 0 \end{pmatrix}\right\}$，因此 $$\operatorname{Lat}(B) = \left\{ \{0\},\; \operatorname{span}\left\{\begin{pmatrix} 1 \\ 0 \end{pmatrix}\right\},\; \mathbb{C}^2 \right\}.$$

42.2 超不变子空间¶

核心问题：哪些不变子空间在所有与 $T$ 交换的算子作用下都保持不变？这类子空间有何结构？

定义 42.3 (超不变子空间)

设 $T: V \to V$ 是线性变换。子空间 $\mathcal{M} \subseteq V$ 称为 $T$ 的超不变子空间（hyperinvariant subspace），如果对任意与 $T$ 交换的线性变换 $S$（即 $ST = TS$），$\mathcal{M}$ 都是 $S$-不变的。

等价地，$\mathcal{M}$ 对 $T$ 的中心化子（centralizer）$\mathcal{C}(T) = \{S \in \operatorname{End}(V) : ST = TS\}$ 中的每个元素都不变。

超不变子空间显然是不变子空间（因为 $T \in \mathcal{C}(T)$），但反之不一定成立。超不变子空间代表了 $T$ 的"内禀"结构，不依赖于特定的交换算子选取。

定理 42.3 (超不变子空间的 Jordan 形刻画)

设 $A \in \mathbb{C}^{n \times n}$。子空间 $\mathcal{M}$ 是 $A$ 的超不变子空间，当且仅当 $\mathcal{M}$ 可以表示为以下形式：

对 $A$ 的每个不同特征值 $\lambda_i$（$i = 1, \ldots, s$），设 $A$ 在 $\lambda_i$ 处的 Jordan 块大小为 $n_{i,1} \geq n_{i,2} \geq \cdots \geq n_{i,r_i}$。则超不变子空间 $\mathcal{M}$ 必然是某些根子空间（root subspaces）的直和： $$\mathcal{M} = \bigoplus_{i=1}^{s} \mathcal{M}_i,$$ 其中每个 $\mathcal{M}_i$ 是 $\ker(A - \lambda_i I)^{k_i}$ 对某个 $0 \leq k_i \leq n_{i,1}$ 的子空间，并且 $\mathcal{M}_i$ 必须由完整的 Jordan 链（或其截断）生成。

证明

关键思路是利用 Jordan 标准形将问题简化。

不妨设 $A$ 已化为 Jordan 标准形 $J$。首先，根子空间分解 $V = \bigoplus_{i=1}^{s} V_i$（其中 $V_i = \ker(A - \lambda_i I)^{m_i}$，$m_i$ 是 $\lambda_i$ 的代数重数）给出的每个 $V_i$ 都是超不变的——这是因为任何与 $A$ 交换的 $S$ 必须保持 $V_i$ 不变（若 $(A - \lambda_i I)^{m_i} v = 0$，则 $(A - \lambda_i I)^{m_i} Sv = S(A - \lambda_i I)^{m_i} v = 0$）。

因此 $\mathcal{M} = \bigoplus_{i=1}^{s} (\mathcal{M} \cap V_i)$，每个分量 $\mathcal{M} \cap V_i$ 必须是 $A|_{V_i}$ 的超不变子空间。这将问题归结为单一特征值的情形。

对于单一特征值 $\lambda$（不妨设 $\lambda = 0$），$A$ 是幂零矩阵。此时需要证明超不变子空间恰好是 $\ker(A^k)$ 的形式。这可以通过分析幂零矩阵中心化子的结构来完成：与幂零 Jordan 块交换的矩阵的精确描述表明，只有 $\ker(A^k)$ 这样的子空间才能同时在所有交换矩阵作用下保持不变。$\blacksquare$

例 42.3

设 $A = \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{pmatrix}$（$3 \times 3$ 幂零 Jordan 块）。

不变子空间：$\{0\}$，$\operatorname{span}\{e_1\}$，$\operatorname{span}\{e_1, e_2\}$，$\mathbb{C}^3$。

超不变子空间：$\{0\} = \ker(A^0)$，$\operatorname{span}\{e_1\} = \ker(A)$，$\operatorname{span}\{e_1, e_2\} = \ker(A^2)$，$\mathbb{C}^3 = \ker(A^3)$。

在这个例子中，所有不变子空间恰好都是超不变的。但如果 Jordan 形有多个相同特征值的 Jordan 块，情况会更复杂。例如 $A = \operatorname{diag}(J_2(0), J_1(0))$，其中 $J_2(0) = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}$，则 $\operatorname{span}\{e_1, e_3\} = \ker(A)$ 是超不变的，但 $\operatorname{span}\{e_1\}$ 和 $\operatorname{span}\{e_3\}$ 虽然是不变的，却不是超不变的。

42.3 约化子空间与互补不变子空间¶

核心问题：何时一个不变子空间能够将线性变换真正"分解"为两个独立部分？

定义 42.4 (约化子空间)

设 $V$ 是有限维内积空间，$T: V \to V$ 是线性变换。子空间 $\mathcal{M}$ 称为 $T$ 的约化子空间（reducing subspace），如果 $\mathcal{M}$ 和 $\mathcal{M}^\perp$ 都是 $T$-不变的。

等价地，$\mathcal{M}$ 约化 $T$ 当且仅当 $T$ 与正交投影 $P_{\mathcal{M}}$ 交换：$TP_{\mathcal{M}} = P_{\mathcal{M}}T$。

定理 42.4 (约化子空间的等价条件)

设 $A \in \mathbb{C}^{n \times n}$，$\mathcal{M}$ 是 $\mathbb{C}^n$ 的子空间。以下条件等价：

$\mathcal{M}$ 同时是 $A$-不变和 $A^*$-不变的。
$\mathcal{M}$ 和 $\mathcal{M}^\perp$ 都是 $A$-不变的。
$AP_{\mathcal{M}} = P_{\mathcal{M}} A$，其中 $P_{\mathcal{M}}$ 是到 $\mathcal{M}$ 的正交投影。
存在酉矩阵 $U$ 使得 $U^*AU = \begin{pmatrix} B & 0 \\ 0 & D \end{pmatrix}$，其中 $U$ 的前 $k$ 列（$k = \dim \mathcal{M}$）张成 $\mathcal{M}$。

证明

(1) $\Leftrightarrow$ (2)：若 $\mathcal{M}$ 是 $A$-不变的，则对 $v \in \mathcal{M}$，$w \in \mathcal{M}^\perp$，有 $\langle w, Av \rangle = 0$。因此 $\langle A^*w, v \rangle = 0$，即 $A^*w \in \mathcal{M}^\perp$。这说明 $\mathcal{M}^\perp$ 是 $A^*$-不变的。类似地，$\mathcal{M}^\perp$ 的 $A$-不变性等价于 $\mathcal{M}$ 的 $A^*$-不变性。

(2) $\Leftrightarrow$ (3)：设 $P = P_{\mathcal{M}}$。对任意 $v \in \mathbb{C}^n$，$v = Pv + (I-P)v$，其中 $Pv \in \mathcal{M}$，$(I-P)v \in \mathcal{M}^\perp$。若 $\mathcal{M}$ 和 $\mathcal{M}^\perp$ 都是 $A$-不变的，则 $APv \in \mathcal{M}$，$A(I-P)v \in \mathcal{M}^\perp$。因此 $PAv = PAPv + PA(I-P)v = APv + 0 = APv$，即 $PA = AP$。反之亦然。

(3) $\Leftrightarrow$ (4)：这是直接推论，取 $\mathcal{M}$ 和 $\mathcal{M}^\perp$ 的标准正交基排成酉矩阵 $U$ 即可。$\blacksquare$

定义 42.5 (互补不变子空间)

设 $T: V \to V$ 是线性变换。若 $V = \mathcal{M} \oplus \mathcal{N}$，且 $\mathcal{M}$ 和 $\mathcal{N}$ 都是 $T$-不变的，则称 $\mathcal{N}$ 是 $\mathcal{M}$ 关于 $T$ 的互补不变子空间（complementary invariant subspace）。

定理 42.5 (互补不变子空间的存在性)

设 $A \in \mathbb{C}^{n \times n}$，$\mathcal{M}$ 是 $A$-不变子空间。

一般情形：互补不变子空间不一定存在。
半单情形：若 $A$ 是可对角化的（半单的），则互补不变子空间总是存在的。
谱分离情形：若 $\sigma(A|_{\mathcal{M}}) \cap \sigma(A|_{V/\mathcal{M}}) = \emptyset$（$\mathcal{M}$ 上和商空间上的谱不相交），则互补不变子空间存在且唯一。

证明

(1) 反例：设 $A = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}$，$\mathcal{M} = \operatorname{span}\{e_1\} = \ker(A)$。若存在 $A$-不变的 $\mathcal{N}$ 使得 $\mathbb{C}^2 = \mathcal{M} \oplus \mathcal{N}$，则 $\mathcal{N}$ 是一维的，设 $\mathcal{N} = \operatorname{span}\{v\}$，$v = \begin{pmatrix} a \\ b \end{pmatrix}$，$b \neq 0$。$A$-不变性要求 $Av = \begin{pmatrix} b \\ 0 \end{pmatrix} \in \mathcal{N}$，但 $\begin{pmatrix} b \\ 0 \end{pmatrix} \in \mathcal{M}$，$b \neq 0$，矛盾于 $\mathcal{M} \cap \mathcal{N} = \{0\}$。

(3) 由谱分离条件，可以用 Riesz 投影（环路积分）构造：设 $\Gamma$ 是围绕 $\sigma(A|_{\mathcal{M}})$ 但不包含 $\sigma(A|_{V/\mathcal{M}})$ 的简单闭曲线。定义谱投影 $$P = \frac{1}{2\pi i} \oint_\Gamma (zI - A)^{-1} dz.$$ 则 $P^2 = P$，$AP = PA$，$\operatorname{Im}(P) = \mathcal{M}$，且 $\mathcal{N} = \ker(P)$ 是唯一的互补不变子空间。$\blacksquare$

例 42.4

设 $A = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 2 & 1 \\ 0 & 0 & 2 \end{pmatrix}$。

$\mathcal{M}_1 = \operatorname{span}\{e_1\}$（特征值 $1$）和 $\mathcal{M}_2 = \operatorname{span}\{e_2, e_3\}$（特征值 $2$）的谱不相交，因此 $\mathbb{C}^3 = \mathcal{M}_1 \oplus \mathcal{M}_2$ 是互补不变分解。
但 $\mathcal{M}_3 = \operatorname{span}\{e_2\}$（$\ker(A - 2I)$ 中的子空间）是 $A$-不变的，其补空间中的谱与 $\mathcal{M}_3$ 上的谱重叠（都包含特征值 $2$）。可以验证不存在一维的互补不变子空间。

42.4 不变子空间与 Jordan 形¶

核心问题：Jordan 标准形如何完整描述所有不变子空间？

定理 42.6 (Jordan 链与不变子空间)

设 $A \in \mathbb{C}^{n \times n}$ 的 Jordan 标准形中，特征值 $\lambda$ 对应的 Jordan 块为 $J_{n_1}(\lambda), J_{n_2}(\lambda), \ldots, J_{n_r}(\lambda)$，$n_1 \geq n_2 \geq \cdots \geq n_r$。设第 $j$ 个 Jordan 块对应的 Jordan 链为 $\{v_1^{(j)}, v_2^{(j)}, \ldots, v_{n_j}^{(j)}\}$，满足 $$(A - \lambda I)v_k^{(j)} = v_{k-1}^{(j)}, \quad v_0^{(j)} = 0.$$

则：

每条 Jordan 链的前 $k$ 个向量 $\operatorname{span}\{v_1^{(j)}, \ldots, v_k^{(j)}\}$（$1 \leq k \leq n_j$）张成 $A$-不变子空间。
谱不变子空间：$\mathcal{V}_\lambda = \ker(A - \lambda I)^{n_1}$ 是 $A$-不变的，且 $\sigma(A|_{\mathcal{V}_\lambda}) = \{\lambda\}$。
$\mathbb{C}^n = \bigoplus_{\lambda \in \sigma(A)} \mathcal{V}_\lambda$ 是谱不变子空间的直和分解。

证明

(1) 设 $\mathcal{M}_k^{(j)} = \operatorname{span}\{v_1^{(j)}, \ldots, v_k^{(j)}\}$。对任意 $v = \sum_{i=1}^{k} c_i v_i^{(j)}$， $$Av = \sum_{i=1}^{k} c_i Av_i^{(j)} = \sum_{i=1}^{k} c_i (\lambda v_i^{(j)} + v_{i-1}^{(j)}) = \lambda v + \sum_{i=1}^{k} c_i v_{i-1}^{(j)}.$$ 由于 $v_{i-1}^{(j)} \in \mathcal{M}_k^{(j)}$（对 $i \leq k$），可得 $Av \in \mathcal{M}_k^{(j)}$。

(2) 和 (3) 直接由 Jordan 标准形的结构和第 12 章的结论得出。$\blacksquare$

定义 42.6 (根子空间)

设 $A \in \mathbb{C}^{n \times n}$，$\lambda \in \sigma(A)$。定义升链 $$\{0\} \subseteq \ker(A - \lambda I) \subseteq \ker(A - \lambda I)^2 \subseteq \cdots$$ 该链在某个 $m \leq n$ 处稳定，即 $\ker(A - \lambda I)^m = \ker(A - \lambda I)^{m+1} = \cdots$。稳定后的空间 $\ker(A - \lambda I)^m$ 就是特征值 $\lambda$ 的根子空间（root subspace），也称为广义特征空间。

例 42.5

考虑 $A = \operatorname{diag}(J_3(0), J_2(0), J_1(1))$，其中 $$J_3(0) = \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{pmatrix}, \quad J_2(0) = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}, \quad J_1(1) = (1).$$

特征值 $\lambda = 0$ 的根子空间升链：

$\ker(A) = \operatorname{span}\{e_1, e_4, e_6\}$（注意 $e_6$ 不在 $\ker(A)$ 中，因为 $Ae_6 = e_6 \neq 0$）。

更准确地：$\ker(A) = \operatorname{span}\{e_1, e_4\}$（只看 $\lambda = 0$ 的部分），$\dim = 2$。

$\ker(A^2)|_{\mathcal{V}_0} = \operatorname{span}\{e_1, e_2, e_4, e_5\}$，$\dim = 4$。
$\ker(A^3)|_{\mathcal{V}_0} = \operatorname{span}\{e_1, e_2, e_3, e_4, e_5\}$，$\dim = 5$。

每层核空间的维数差 $2, 2, 1$ 给出 Weyr 特征（参见第 44 章）。

42.5 子空间之间的角度¶

核心问题：如何量化两个子空间之间的"距离"或"接近程度"？

定义 42.7 (典则角度)

设 $\mathcal{F}$ 和 $\mathcal{G}$ 是 $\mathbb{R}^n$（或 $\mathbb{C}^n$）的子空间，$\dim \mathcal{F} = p$，$\dim \mathcal{G} = q$，$p \leq q$。$\mathcal{F}$ 与 $\mathcal{G}$ 之间的典则角度（canonical angles，也称主角）$\theta_1, \theta_2, \ldots, \theta_p$（$0 \leq \theta_1 \leq \theta_2 \leq \cdots \leq \theta_p \leq \pi/2$）递归定义如下：

\[\cos \theta_k = \max_{\substack{u \in \mathcal{F}, \|u\| = 1 \\ u \perp u_1, \ldots, u_{k-1}}} \max_{\substack{v \in \mathcal{G}, \|v\| = 1 \\ v \perp v_1, \ldots, v_{k-1}}} |u^* v|,\]

其中 $u_k$ 和 $v_k$ 是达到上述最大值的向量。

定理 42.7 (典则角度的 SVD 刻画)

设 $P_{\mathcal{F}}$ 和 $P_{\mathcal{G}}$ 分别是到 $\mathcal{F}$ 和 $\mathcal{G}$ 的正交投影。则：

$P_{\mathcal{F}} P_{\mathcal{G}}$ 的非零奇异值恰好是 $\cos \theta_1 \geq \cos \theta_2 \geq \cdots \geq \cos \theta_p > 0$（若某些 $\theta_k = \pi/2$ 则对应奇异值为 $0$）。
等价地，设 $F$ 和 $G$ 分别是 $\mathcal{F}$ 和 $\mathcal{G}$ 的标准正交基矩阵（列向量为基），则 $F^* G$ 的奇异值给出 $\cos \theta_k$。

证明

设 $F \in \mathbb{C}^{n \times p}$ 和 $G \in \mathbb{C}^{n \times q}$ 是 $\mathcal{F}$ 和 $\mathcal{G}$ 的标准正交基矩阵。则 $P_{\mathcal{F}} = FF^*$，$P_{\mathcal{G}} = GG^*$。

矩阵 $F^*G \in \mathbb{C}^{p \times q}$ 的 SVD 为 $F^*G = U \Sigma V^*$。设 $\hat{F} = FU$，$\hat{G} = GV$，则 $\hat{F}^* \hat{G} = U^* F^* G V = \Sigma$。

这意味着 $\hat{f}_k^* \hat{g}_j = \sigma_k \delta_{kj}$，其中 $\hat{f}_k$ 和 $\hat{g}_k$ 是 $\hat{F}$ 和 $\hat{G}$ 的列。由于 $\hat{F}$ 和 $\hat{G}$ 仍是 $\mathcal{F}$ 和 $\mathcal{G}$ 的标准正交基（酉变换保持正交性），比较递归定义即得 $\sigma_k = \cos \theta_k$。$\blacksquare$

定义 42.8 ($\sin \Theta$ 矩阵和 $\tan \Theta$ 矩阵)

基于典则角度 $\theta_1, \ldots, \theta_p$，定义对角矩阵：

\[\sin \Theta(\mathcal{F}, \mathcal{G}) = \operatorname{diag}(\sin \theta_1, \sin \theta_2, \ldots, \sin \theta_p),$$ $$\cos \Theta(\mathcal{F}, \mathcal{G}) = \operatorname{diag}(\cos \theta_1, \cos \theta_2, \ldots, \cos \theta_p),$$ $$\tan \Theta(\mathcal{F}, \mathcal{G}) = \operatorname{diag}(\tan \theta_1, \tan \theta_2, \ldots, \tan \theta_p).\]

当两个子空间维数相同（$p = q$）时，有： $$\|\sin \Theta(\mathcal{F}, \mathcal{G})\|_2 = \|P_{\mathcal{F}} - P_{\mathcal{G}}\|_2.$$

定理 42.8 ($\sin \Theta$ 的几何意义)

设 $\dim \mathcal{F} = \dim \mathcal{G} = p$。则：

\[\|P_{\mathcal{F}} - P_{\mathcal{G}}\|_2 = \sin \theta_p,$$ $$\|P_{\mathcal{F}} - P_{\mathcal{G}}\|_F = \left(\sum_{k=1}^{p} \sin^2 \theta_k\right)^{1/2} = \|\sin \Theta\|_F.\]

证明

利用 $P_{\mathcal{F}} - P_{\mathcal{G}}$ 的奇异值等于 $\sin \theta_k$（每个出现两次）的经典结论。

具体地，取 $\mathcal{F}$ 和 $\mathcal{G}$ 的典则基 $\hat{F}$ 和 $\hat{G}$，构造酉矩阵 $Q = (\hat{F} \mid \hat{F}_\perp \mid \hat{G}_\perp)$（适当扩充），可以将 $P_{\mathcal{F}} - P_{\mathcal{G}}$ 化为显式分块形式，从中读出奇异值。$\blacksquare$

例 42.6

设 $\mathcal{F} = \operatorname{span}\{e_1\}$ 和 $\mathcal{G} = \operatorname{span}\left\{\frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix}\right\}$ 是 $\mathbb{R}^2$ 中的一维子空间。

$F^*G = (1, 0) \cdot \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix} = \frac{1}{\sqrt{2}}$。

因此 $\cos \theta_1 = \frac{1}{\sqrt{2}}$，$\theta_1 = \frac{\pi}{4}$。这正是两条直线之间的夹角。

$\|P_{\mathcal{F}} - P_{\mathcal{G}}\|_2 = \sin \frac{\pi}{4} = \frac{1}{\sqrt{2}} \approx 0.707$。

42.6 Davis-Kahan sin Θ 定理¶

核心问题：当 Hermite 矩阵被扰动时，其不变子空间会偏转多少角度？

这是矩阵扰动理论中最重要的定理之一。它将矩阵的扰动大小与不变子空间的偏转角度定量联系起来。

定理 42.9 (Davis-Kahan sin Θ 定理)

设 $A, \tilde{A} \in \mathbb{C}^{n \times n}$ 是 Hermite 矩阵，$E = \tilde{A} - A$。设 $\mathcal{V}$ 是 $A$ 的某个不变子空间（对应谱的一部分 $\Sigma_1 \subseteq \sigma(A)$），$\tilde{\mathcal{V}}$ 是 $\tilde{A}$ 的对应不变子空间（对应 $\tilde{\Sigma}_1 \subseteq \sigma(\tilde{A})$）。设

\[\delta = \min_{\lambda \in \Sigma_1, \mu \in \sigma(A) \setminus \Sigma_1} |\lambda - \mu|\]

是谱间隙（spectral gap）。若 $\delta > 0$，则

\[\|\sin \Theta(\mathcal{V}, \tilde{\mathcal{V}})\|_F \leq \frac{\|E\|_F}{\delta}, \qquad \|\sin \Theta(\mathcal{V}, \tilde{\mathcal{V}})\|_2 \leq \frac{\|E\|_2}{\delta}.\]

更精确地，对于任意酉不变范数 $\|\cdot\|$：

\[\|\sin \Theta(\mathcal{V}, \tilde{\mathcal{V}})\| \leq \frac{\|R\|}{\delta},\]

其中 $R = \tilde{A}\hat{V} - \hat{V}(\hat{V}^* \tilde{A} \hat{V})$ 是残差，$\hat{V}$ 是 $\mathcal{V}$ 的标准正交基矩阵。

证明

关键思路：利用 Sylvester 方程建立 $\sin \Theta$ 与扰动的关系。

设 $U = (\hat{V} \mid \hat{V}_\perp)$ 是酉矩阵，其中 $\hat{V}$ 的列张成 $\mathcal{V}$，$\hat{V}_\perp$ 的列张成 $\mathcal{V}^\perp$。类似地，$\tilde{U} = (\hat{\tilde{V}} \mid \hat{\tilde{V}}_\perp)$。

由于 $\mathcal{V}$ 是 $A$ 的不变子空间， $$U^* A U = \begin{pmatrix} A_1 & 0 \\ 0 & A_2 \end{pmatrix},$$ 其中 $\sigma(A_1) = \Sigma_1$，$\sigma(A_2) = \sigma(A) \setminus \Sigma_1$。

设 $\tilde{V}_\perp^* \hat{V} = S$（这个矩阵与 $\sin \Theta$ 密切相关——实际上 $S$ 的奇异值就是 $\sin \theta_k$）。

由 $\tilde{A} \hat{\tilde{V}} = \hat{\tilde{V}} \tilde{A}_1$ 可得 $\hat{\tilde{V}}_\perp^* \tilde{A} \hat{\tilde{V}} = 0$。利用 $\tilde{A} = A + E$，

\[\hat{\tilde{V}}_\perp^* (A + E) \hat{\tilde{V}} = 0.\]

将 $\hat{\tilde{V}}$ 分解到 $\mathcal{V}$ 和 $\mathcal{V}^\perp$ 上，设 $\hat{V}^* \hat{\tilde{V}} = C$（奇异值为 $\cos \theta_k$），$\hat{V}_\perp^* \hat{\tilde{V}} = S'$（奇异值为 $\sin \theta_k$）。

经过代数运算，可以得到 Sylvester 方程 $$A_2 S' - S' A_1 = -\hat{V}_\perp^* E \hat{\tilde{V}} + O(\|E\|^2).$$

由 Sylvester 方程的解估计（利用谱间隙 $\delta$）： $$\|S'\| \leq \frac{\|\hat{V}_\perp^* E \hat{\tilde{V}}\|}{\delta} \leq \frac{\|E\|}{\delta}.$$

由于 $S'$ 的奇异值是 $\sin \theta_k$，这就给出了所需的估计。

严格的证明需要更仔细地处理高阶项，使用如下更精确的 Sylvester 方程：

\[A_2 (\hat{V}_\perp^* \hat{\tilde{V}}) - (\hat{V}_\perp^* \hat{\tilde{V}}) \tilde{A}_1 = -\hat{V}_\perp^* E \hat{\tilde{V}}.\]

此方程精确成立（无高阶项），因为 $A \hat{V}_\perp = \hat{V}_\perp A_2$ 且 $\tilde{A} \hat{\tilde{V}} = \hat{\tilde{V}} \tilde{A}_1$。由 $\sigma(A_2) \cap \sigma(\tilde{A}_1) = \emptyset$（当 $\|E\| < \delta/2$ 时成立），Sylvester 方程有唯一解，且 $$\|\hat{V}_\perp^* \hat{\tilde{V}}\| \leq \frac{\|\hat{V}_\perp^* E \hat{\tilde{V}}\|}{\min_{\lambda \in \sigma(A_2), \mu \in \sigma(\tilde{A}_1)} |\lambda - \mu|} \leq \frac{\|E\|}{\delta - \|E\|}.$$

当 $\|E\|$ 相对于 $\delta$ 足够小时，这给出 $\|\sin \Theta\| \lesssim \|E\|/\delta$。$\blacksquare$

例 42.7 (PCA 扰动分析)

在主成分分析（PCA）中，总体协方差矩阵 $\Sigma$ 的前 $k$ 个特征向量张成的子空间 $\mathcal{V}_k$ 是我们感兴趣的对象。样本协方差矩阵 $\hat{\Sigma}$ 是 $\Sigma$ 的扰动估计。

设 $\lambda_1 \geq \cdots \geq \lambda_n$ 是 $\Sigma$ 的特征值。前 $k$ 个特征向量的谱间隙为 $$\delta = \lambda_k - \lambda_{k+1}.$$

Davis-Kahan 定理给出： $$\|\sin \Theta(\mathcal{V}_k, \hat{\mathcal{V}}_k)\|_F \leq \frac{\|\hat{\Sigma} - \Sigma\|_F}{\lambda_k - \lambda_{k+1}}.$$

数值例子：设 $n = 100$，$k = 3$，$\lambda_3 = 5$，$\lambda_4 = 1$（谱间隙 $\delta = 4$），$\|\hat{\Sigma} - \Sigma\|_F = 0.8$。则

\[\|\sin \Theta\|_F \leq \frac{0.8}{4} = 0.2,\]

即前 3 个主成分方向的偏转（以 Frobenius 范数度量的 $\sin \Theta$）不超过 $0.2$。

例 42.8 (具体矩阵的 Davis-Kahan 估计)

设 $$A = \begin{pmatrix} 5 & 0 \\ 0 & 1 \end{pmatrix}, \quad \tilde{A} = \begin{pmatrix} 5 & 0.3 \\ 0.3 & 1 \end{pmatrix}.$$

$E = \tilde{A} - A = \begin{pmatrix} 0 & 0.3 \\ 0.3 & 0 \end{pmatrix}$，$\|E\|_2 = 0.3$。

谱间隙 $\delta = 5 - 1 = 4$。$A$ 的特征向量 $v_1 = e_1$ 张成 $\mathcal{V} = \operatorname{span}\{e_1\}$。

$\tilde{A}$ 的特征值为 $\frac{6 \pm \sqrt{16.36}}{2} \approx 5.0225, 0.9775$，对应特征向量 $\tilde{v}_1 \approx \begin{pmatrix} 0.9978 \\ 0.0665 \end{pmatrix}$。

实际 $\sin \theta_1 = |e_1^* \tilde{v}_{1,\perp}| \approx 0.0665$。

Davis-Kahan 上界为 $\frac{0.3}{4} = 0.075$。

估计相当紧：$0.0665 \leq 0.075$。

42.7 谱投影的扰动¶

核心问题：当矩阵被扰动时，谱投影（由环路积分定义的投影算子）如何变化？

定义 42.9 (谱投影)

设 $A \in \mathbb{C}^{n \times n}$，$\Gamma$ 是复平面中的简单闭曲线（正向），使得 $\sigma(A)$ 的一部分 $\Sigma_1$ 在 $\Gamma$ 内部，其余部分 $\Sigma_2 = \sigma(A) \setminus \Sigma_1$ 在 $\Gamma$ 外部。则

\[P = \frac{1}{2\pi i} \oint_\Gamma (zI - A)^{-1} \, dz\]

称为 $A$ 关于 $\Sigma_1$ 的谱投影（spectral projection）。

定理 42.10 (谱投影的基本性质)

上述谱投影 $P$ 满足：

$P^2 = P$（$P$ 是幂等的，即投影算子）。
$AP = PA$（$P$ 与 $A$ 交换）。
$\operatorname{Im}(P)$ 是 $A$ 的不变子空间，$\sigma(A|_{\operatorname{Im}(P)}) = \Sigma_1$。
$\ker(P)$ 也是 $A$ 的不变子空间，$\sigma(A|_{\ker(P)}) = \Sigma_2$。
若 $A$ 是 Hermite 矩阵，则 $P$ 是正交投影（$P = P^*$）。

证明

(1) 设 $\Gamma_1$ 和 $\Gamma_2$ 是两条嵌套的等价曲线（$\Gamma_1$ 在 $\Gamma_2$ 内部，但都包围 $\Sigma_1$）。利用预解式恒等式 $$(zI - A)^{-1} - (wI - A)^{-1} = (w - z)(zI - A)^{-1}(wI - A)^{-1},$$ 计算 \begin{align} P^2 &= \frac{1}{(2\pi i)^2} \oint_{\Gamma_1} \oint_{\Gamma_2} (zI - A)^{-1}(wI - A)^{-1} \, dw \, dz \ &= \frac{1}{(2\pi i)^2} \oint_{\Gamma_1} \oint_{\Gamma_2} \frac{(zI - A)^{-1} - (wI - A)^{-1}}{w - z} \, dw \, dz. \end{align}

对 $w$ 积分时，$(wI - A)^{-1}$ 在 $\Gamma_2$ 内部关于 $w$ 全纯（因为 $z$ 在 $\Gamma_2$ 内部，是唯一的极点），利用留数定理得到 $P^2 = P$。

(2) $A$ 与 $(zI - A)^{-1}$ 交换，因此与积分交换。

(5) 当 $A = A^*$ 时，$(zI - A)^{-1}$ 的共轭满足 $\overline{(zI - A)^{-1}} = (\bar{z}I - A)^{-1}$，利用谱在实轴上的对称性可得 $P^* = P$。$\blacksquare$

定理 42.11 (Kato 扰动定理)

设 $A(t) = A + tE$ 是矩阵的解析扰动（$t \in \mathbb{C}$，$|t|$ 足够小）。设 $\Gamma$ 是围绕 $\sigma(A)$ 的一部分 $\Sigma_1$ 的简单闭曲线，且 $\operatorname{dist}(\Gamma, \sigma(A)) = d > 0$。

当 $|t| \cdot \|E\| < d$ 时，$A(t)$ 的谱在 $\Gamma$ 内部的部分 $\Sigma_1(t)$ 与 $\Sigma_1$ 具有相同数量的特征值（计重数），且谱投影

\[P(t) = \frac{1}{2\pi i} \oint_\Gamma (zI - A(t))^{-1} \, dz\]

是 $t$ 的解析函数。特别地：

\[P(t) = P + t P^{(1)} + t^2 P^{(2)} + \cdots,\]

其中

\[P^{(1)} = -\frac{1}{2\pi i} \oint_\Gamma (zI - A)^{-1} E (zI - A)^{-1} \, dz.\]

证明

关键是预解式的 Neumann 级数展开。当 $|t| \cdot \|E\| < d$ 时，对 $z \in \Gamma$： $$(zI - A(t))^{-1} = (zI - A - tE)^{-1} = \left[(zI - A)(I - t(zI - A)^{-1}E)\right]^{-1}.$$

由于 $\|t(zI - A)^{-1}E\| \leq |t| \cdot \|E\| / d < 1$，Neumann 级数 $$(zI - A(t))^{-1} = \sum_{k=0}^{\infty} t^k \left[(zI - A)^{-1} E\right]^k (zI - A)^{-1}$$ 一致收敛。逐项积分即得 $P(t)$ 的级数展开。$\blacksquare$

例 42.9 (一阶谱投影扰动)

设 $A = \operatorname{diag}(\lambda_1, \lambda_2)$（$\lambda_1 \neq \lambda_2$），$E = \begin{pmatrix} e_{11} & e_{12} \\ e_{21} & e_{22} \end{pmatrix}$。

$P = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}$ 是 $A$ 关于 $\{\lambda_1\}$ 的谱投影。

一阶扰动：取 $\Gamma$ 围绕 $\lambda_1$， $$P^{(1)} = -\frac{1}{2\pi i} \oint_\Gamma \begin{pmatrix} (z - \lambda_1)^{-1} & 0 \\ 0 & (z - \lambda_2)^{-1} \end{pmatrix} E \begin{pmatrix} (z - \lambda_1)^{-1} & 0 \\ 0 & (z - \lambda_2)^{-1} \end{pmatrix} dz.$$

计算留数（$z = \lambda_1$ 处）： $$P^{(1)} = \begin{pmatrix} 0 & \frac{e_{12}}{\lambda_1 - \lambda_2} \\[4pt] \frac{e_{21}}{\lambda_2 - \lambda_1} & 0 \end{pmatrix} = \begin{pmatrix} 0 & \frac{e_{12}}{\lambda_1 - \lambda_2} \\[4pt] -\frac{e_{21}}{\lambda_1 - \lambda_2} & 0 \end{pmatrix}.$$

可以验证：$P^{(1)}P + PP^{(1)} = P^{(1)}$（由 $P(t)^2 = P(t)$ 的一阶条件），且

\[\|P^{(1)}\|_2 = \frac{\max(|e_{12}|, |e_{21}|)}{|\lambda_1 - \lambda_2|},\]

谱间隙 $|\lambda_1 - \lambda_2|$ 出现在分母中，与 Davis-Kahan 定理一致。

定理 42.12 (谱投影距离与 sin Θ 的关系)

设 $A$ 和 $\tilde{A}$ 是 Hermite 矩阵，$P$ 和 $\tilde{P}$ 分别是关于谱的对应部分的谱投影（正交投影），$\dim \operatorname{Im}(P) = \dim \operatorname{Im}(\tilde{P}) = k$。则：

\[\|P - \tilde{P}\|_2 = \|\sin \Theta(\operatorname{Im}(P), \operatorname{Im}(\tilde{P}))\|_2 = \sin \theta_{\max},\]

\[\|P - \tilde{P}\|_F = \sqrt{2} \|\sin \Theta(\operatorname{Im}(P), \operatorname{Im}(\tilde{P}))\|_F.\]

因此 Davis-Kahan 定理等价于谱投影的扰动界。

证明

$P - \tilde{P}$ 是 Hermite 矩阵（因为 $P$ 和 $\tilde{P}$ 都是 Hermite 的）。通过在适当的典则基下将 $P$ 和 $\tilde{P}$ 同时分块对角化，可以证明 $P - \tilde{P}$ 的特征值恰好是 $\pm \sin \theta_k$（每个出现一次）和若干个 $0$。

具体地，在典则基下： $$P = \begin{pmatrix} I & 0 \\ 0 & 0 \end{pmatrix}, \quad \tilde{P} = \begin{pmatrix} C^2 & CS \\ CS & S^2 \end{pmatrix},$$ 其中 $C = \cos \Theta$，$S = \sin \Theta$ 是对角矩阵。因此 $$P - \tilde{P} = \begin{pmatrix} S^2 & -CS \\ -CS & -S^2 \end{pmatrix},$$ 其特征值为 $\pm \sin \theta_k$。从而 $\|P - \tilde{P}\|_2 = \max_k |\sin \theta_k| = \sin \theta_{\max}$，$\|P - \tilde{P}\|_F = \sqrt{2 \sum_k \sin^2 \theta_k} = \sqrt{2} \|\sin \Theta\|_F$。$\blacksquare$

例 42.10 (综合应用)

考虑对称矩阵 $$A = \begin{pmatrix} 10 & 0 & 0 \\ 0 & 5 & 0 \\ 0 & 0 & 1 \end{pmatrix}$$ 及其扰动 $\tilde{A} = A + \epsilon E$，其中 $E$ 是随机对称矩阵，$\|E\|_2 = 1$，$\epsilon = 0.1$。

关于特征值 $\{10\}$（$\mathcal{V} = \operatorname{span}\{e_1\}$），谱间隙 $\delta_1 = 10 - 5 = 5$。 Davis-Kahan 估计：$\sin \theta_1 \leq \epsilon / \delta_1 = 0.1 / 5 = 0.02$。
关于特征值 $\{10, 5\}$（$\mathcal{V} = \operatorname{span}\{e_1, e_2\}$），谱间隙 $\delta_2 = 5 - 1 = 4$。 Davis-Kahan 估计：$\|\sin \Theta\|_2 \leq 0.1 / 4 = 0.025$。

这些估计表明，谱间隙越大，不变子空间对扰动越稳定。

第 42 章 不变子空间与扰动¶