第 42 章 不变子空间与扰动¶
前置:向量空间(Ch4) · 线性变换(Ch5) · 特征值(Ch6) · Jordan形(Ch12) · 范数与扰动(Ch15)
本章脉络:不变子空间定义 → 不变子空间格 → 超不变子空间 → 约化子空间 → 互补不变子空间 → 子空间之间的角度 → Davis-Kahan sin Θ 定理 → 谱投影扰动
延伸:Davis-Kahan 定理是现代统计学和机器学习中 PCA 扰动分析的理论基石;不变子空间理论在算子代数(von Neumann 代数中的投影格)中有无穷维推广
不变子空间是线性代数中最核心的结构概念之一。当我们研究一个线性变换 \(T: V \to V\) 时,寻找使 \(T\) 的作用"封闭"的子空间,本质上是在寻找将 \(T\) 分解为更简单部分的途径。特征空间是最基本的不变子空间,而 Jordan 标准形理论则展示了如何通过广义特征空间实现矩阵的精细分解。
本章从不变子空间的基本定义出发,建立不变子空间格的代数结构,深入讨论超不变子空间与约化子空间这两类特殊的不变子空间,然后转向一个截然不同但极其重要的方向——子空间之间的"距离"和"角度"。Davis-Kahan sin Θ 定理将不变子空间的扰动与矩阵的扰动精确联系起来,它不仅是矩阵扰动理论的瑰宝,更是现代数据科学中主成分分析(PCA)理论保证的数学基础。
42.1 不变子空间的定义与基本性质¶
核心问题:什么样的子空间在线性变换的作用下保持"封闭"?不变子空间的全体构成怎样的代数结构?
定义 42.1 (\(T\)-不变子空间)
设 \(V\) 是域 \(\mathbb{F}\) 上的向量空间,\(T: V \to V\) 是线性变换。子空间 \(\mathcal{M} \subseteq V\) 称为 \(T\)-不变子空间(\(T\)-invariant subspace),如果 $\(T(\mathcal{M}) \subseteq \mathcal{M},\)$ 即对任意 \(v \in \mathcal{M}\),有 \(Tv \in \mathcal{M}\)。
等价地,\(T\) 在 \(\mathcal{M}\) 上的限制 \(T|_{\mathcal{M}}: \mathcal{M} \to \mathcal{M}\) 是良定义的线性变换。
在矩阵语言中,如果 \(A \in \mathbb{F}^{n \times n}\) 且 \(\mathcal{M}\) 是 \(\mathbb{F}^n\) 的一个 \(k\) 维 \(A\)-不变子空间,取 \(\mathcal{M}\) 的一组基排成矩阵 \(X \in \mathbb{F}^{n \times k}\),则 \(A\)-不变性等价于存在矩阵 \(B \in \mathbb{F}^{k \times k}\) 使得
矩阵 \(B\) 就是 \(A|_{\mathcal{M}}\) 在所选基下的矩阵表示。
例 42.1 (基本不变子空间)
设 \(A \in \mathbb{C}^{n \times n}\)。以下子空间都是 \(A\)-不变的:
- 平凡子空间:\(\{0\}\) 和 \(\mathbb{C}^n\)。
- 特征空间:若 \(\lambda\) 是 \(A\) 的特征值,则 \(\ker(A - \lambda I)\) 是 \(A\)-不变的。
- 广义特征空间:\(\ker(A - \lambda I)^k\) 对每个 \(k \geq 1\) 都是 \(A\)-不变的。
- 值域与核:\(\operatorname{Im}(A)\) 和 \(\ker(A)\) 都是 \(A\)-不变的。
- \(A\)-循环子空间:对任意 \(v \in \mathbb{C}^n\),\(\mathcal{K}(A, v) = \operatorname{span}\{v, Av, A^2v, \ldots\}\) 是 \(A\)-不变的。
- 多项式子空间:若 \(p(t)\) 是多项式,则 \(\ker(p(A))\) 和 \(\operatorname{Im}(p(A))\) 都是 \(A\)-不变的。
定理 42.1 (不变子空间的等价刻画)
设 \(A \in \mathbb{F}^{n \times n}\),\(\mathcal{M}\) 是 \(\mathbb{F}^n\) 的 \(k\) 维子空间。以下条件等价:
- \(\mathcal{M}\) 是 \(A\)-不变的。
- 存在 \(B \in \mathbb{F}^{k \times k}\),使得 \(AX = XB\),其中 \(X\) 的列是 \(\mathcal{M}\) 的一组基。
- 存在可逆矩阵 \(P\) 使得 \(P^{-1}AP\) 具有分块上三角形式 $\(P^{-1}AP = \begin{pmatrix} B & C \\ 0 & D \end{pmatrix},\)$ 其中 \(B \in \mathbb{F}^{k \times k}\),且 \(P\) 的前 \(k\) 列张成 \(\mathcal{M}\)。
证明
(1) \(\Rightarrow\) (2):设 \(\{x_1, \ldots, x_k\}\) 是 \(\mathcal{M}\) 的一组基。由 \(A\)-不变性,每个 \(Ax_j \in \mathcal{M}\),因此 $\(Ax_j = \sum_{i=1}^{k} b_{ij} x_i, \quad j = 1, \ldots, k.\)$ 令 \(X = (x_1, \ldots, x_k)\),\(B = (b_{ij})\),则 \(AX = XB\)。
(2) \(\Rightarrow\) (3):将 \(X\) 的列扩充为 \(\mathbb{F}^n\) 的一组基,设扩充部分构成矩阵 \(Y\)。令 \(P = (X \mid Y)\),则 \(P\) 可逆,且 $\(P^{-1}AP = \begin{pmatrix} B & C \\ 0 & D \end{pmatrix},\)$ 这是因为 \(AP = P \cdot P^{-1}AP\) 的前 \(k\) 列给出 \(AX = XB + Y \cdot 0 = XB\)。
(3) \(\Rightarrow\) (1):设 \(P = (X \mid Y)\),其中 \(X\) 的列张成 \(\mathcal{M}\)。由 \(P^{-1}AP\) 的形式,\(AX = XB\),因此对任意 \(v = Xc \in \mathcal{M}\),\(Av = AXc = XBc \in \mathcal{M}\)。\(\blacksquare\)
定义 42.2 (不变子空间格 \(\operatorname{Lat}(T)\))
设 \(T: V \to V\) 是线性变换。\(T\) 的所有不变子空间构成的集合,按子空间包含关系 \(\subseteq\) 构成偏序集,记为 \(\operatorname{Lat}(T)\),称为 \(T\) 的不变子空间格(invariant subspace lattice)。
在 \(\operatorname{Lat}(T)\) 中,格运算定义为:
- 交(meet):\(\mathcal{M}_1 \wedge \mathcal{M}_2 = \mathcal{M}_1 \cap \mathcal{M}_2\),
- 并(join):\(\mathcal{M}_1 \vee \mathcal{M}_2 = \mathcal{M}_1 + \mathcal{M}_2\)。
定理 42.2 (\(\operatorname{Lat}(T)\) 构成完备格)
对任意线性变换 \(T: V \to V\),\(\operatorname{Lat}(T)\) 在上述运算下构成完备格。具体地:
- 若 \(\{\mathcal{M}_\alpha\}_{\alpha \in \Lambda}\) 是 \(T\)-不变子空间的任意族,则 \(\bigcap_\alpha \mathcal{M}_\alpha\) 和 \(\sum_\alpha \mathcal{M}_\alpha\) 都是 \(T\)-不变的。
- 最小元素是 \(\{0\}\),最大元素是 \(V\)。
证明
(1) 设 \(v \in \bigcap_\alpha \mathcal{M}_\alpha\)。则对每个 \(\alpha\),\(v \in \mathcal{M}_\alpha\),因此 \(Tv \in \mathcal{M}_\alpha\)(因为 \(\mathcal{M}_\alpha\) 是 \(T\)-不变的)。从而 \(Tv \in \bigcap_\alpha \mathcal{M}_\alpha\)。
对于和空间,设 \(v = \sum_{i=1}^{m} v_{\alpha_i}\),其中 \(v_{\alpha_i} \in \mathcal{M}_{\alpha_i}\)。则 \(Tv = \sum_{i=1}^{m} Tv_{\alpha_i}\),其中每个 \(Tv_{\alpha_i} \in \mathcal{M}_{\alpha_i}\)。因此 \(Tv \in \sum_\alpha \mathcal{M}_\alpha\)。
(2) 显然 \(T(\{0\}) = \{0\} \subseteq \{0\}\),且 \(T(V) \subseteq V\)。\(\blacksquare\)
例 42.2 (不变子空间格的例子)
考虑 \(A = \begin{pmatrix} 2 & 1 \\ 0 & 3 \end{pmatrix}\) 在 \(\mathbb{C}^2\) 上的作用。
特征值为 \(\lambda_1 = 2\),\(\lambda_2 = 3\)。对应特征向量分别为 \(v_1 = \begin{pmatrix} 1 \\ 0 \end{pmatrix}\),\(v_2 = \begin{pmatrix} 1 \\ 1 \end{pmatrix}\)。
\(\operatorname{Lat}(A) = \bigl\{ \{0\},\; \operatorname{span}\{v_1\},\; \operatorname{span}\{v_2\},\; \mathbb{C}^2 \bigr\}\)。
这是因为 \(\mathbb{C}^2\) 中任何一维子空间若是 \(A\)-不变的,其生成元必须是特征向量。由于 \(A\) 有两个不同的特征值,恰好有两个一维不变子空间。
而对于 \(B = \begin{pmatrix} 2 & 1 \\ 0 & 2 \end{pmatrix}\)(单一特征值 \(\lambda = 2\),Jordan 块大小 2),唯一的一维不变子空间是 \(\operatorname{span}\left\{\begin{pmatrix} 1 \\ 0 \end{pmatrix}\right\}\),因此 $\(\operatorname{Lat}(B) = \left\{ \{0\},\; \operatorname{span}\left\{\begin{pmatrix} 1 \\ 0 \end{pmatrix}\right\},\; \mathbb{C}^2 \right\}.\)$
42.2 超不变子空间¶
核心问题:哪些不变子空间在所有与 \(T\) 交换的算子作用下都保持不变?这类子空间有何结构?
定义 42.3 (超不变子空间)
设 \(T: V \to V\) 是线性变换。子空间 \(\mathcal{M} \subseteq V\) 称为 \(T\) 的超不变子空间(hyperinvariant subspace),如果对任意与 \(T\) 交换的线性变换 \(S\)(即 \(ST = TS\)),\(\mathcal{M}\) 都是 \(S\)-不变的。
等价地,\(\mathcal{M}\) 对 \(T\) 的中心化子(centralizer)\(\mathcal{C}(T) = \{S \in \operatorname{End}(V) : ST = TS\}\) 中的每个元素都不变。
超不变子空间显然是不变子空间(因为 \(T \in \mathcal{C}(T)\)),但反之不一定成立。超不变子空间代表了 \(T\) 的"内禀"结构,不依赖于特定的交换算子选取。
定理 42.3 (超不变子空间的 Jordan 形刻画)
设 \(A \in \mathbb{C}^{n \times n}\)。子空间 \(\mathcal{M}\) 是 \(A\) 的超不变子空间,当且仅当 \(\mathcal{M}\) 可以表示为以下形式:
对 \(A\) 的每个不同特征值 \(\lambda_i\)(\(i = 1, \ldots, s\)),设 \(A\) 在 \(\lambda_i\) 处的 Jordan 块大小为 \(n_{i,1} \geq n_{i,2} \geq \cdots \geq n_{i,r_i}\)。则超不变子空间 \(\mathcal{M}\) 必然是某些根子空间(root subspaces)的直和: $\(\mathcal{M} = \bigoplus_{i=1}^{s} \mathcal{M}_i,\)$ 其中每个 \(\mathcal{M}_i\) 是 \(\ker(A - \lambda_i I)^{k_i}\) 对某个 \(0 \leq k_i \leq n_{i,1}\) 的子空间,并且 \(\mathcal{M}_i\) 必须由完整的 Jordan 链(或其截断)生成。
证明
关键思路是利用 Jordan 标准形将问题简化。
不妨设 \(A\) 已化为 Jordan 标准形 \(J\)。首先,根子空间分解 \(V = \bigoplus_{i=1}^{s} V_i\)(其中 \(V_i = \ker(A - \lambda_i I)^{m_i}\),\(m_i\) 是 \(\lambda_i\) 的代数重数)给出的每个 \(V_i\) 都是超不变的——这是因为任何与 \(A\) 交换的 \(S\) 必须保持 \(V_i\) 不变(若 \((A - \lambda_i I)^{m_i} v = 0\),则 \((A - \lambda_i I)^{m_i} Sv = S(A - \lambda_i I)^{m_i} v = 0\))。
因此 \(\mathcal{M} = \bigoplus_{i=1}^{s} (\mathcal{M} \cap V_i)\),每个分量 \(\mathcal{M} \cap V_i\) 必须是 \(A|_{V_i}\) 的超不变子空间。这将问题归结为单一特征值的情形。
对于单一特征值 \(\lambda\)(不妨设 \(\lambda = 0\)),\(A\) 是幂零矩阵。此时需要证明超不变子空间恰好是 \(\ker(A^k)\) 的形式。这可以通过分析幂零矩阵中心化子的结构来完成:与幂零 Jordan 块交换的矩阵的精确描述表明,只有 \(\ker(A^k)\) 这样的子空间才能同时在所有交换矩阵作用下保持不变。\(\blacksquare\)
例 42.3
设 \(A = \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{pmatrix}\)(\(3 \times 3\) 幂零 Jordan 块)。
不变子空间:\(\{0\}\),\(\operatorname{span}\{e_1\}\),\(\operatorname{span}\{e_1, e_2\}\),\(\mathbb{C}^3\)。
超不变子空间:\(\{0\} = \ker(A^0)\),\(\operatorname{span}\{e_1\} = \ker(A)\),\(\operatorname{span}\{e_1, e_2\} = \ker(A^2)\),\(\mathbb{C}^3 = \ker(A^3)\)。
在这个例子中,所有不变子空间恰好都是超不变的。但如果 Jordan 形有多个相同特征值的 Jordan 块,情况会更复杂。例如 \(A = \operatorname{diag}(J_2(0), J_1(0))\),其中 \(J_2(0) = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}\),则 \(\operatorname{span}\{e_1, e_3\} = \ker(A)\) 是超不变的,但 \(\operatorname{span}\{e_1\}\) 和 \(\operatorname{span}\{e_3\}\) 虽然是不变的,却不是超不变的。
42.3 约化子空间与互补不变子空间¶
核心问题:何时一个不变子空间能够将线性变换真正"分解"为两个独立部分?
定义 42.4 (约化子空间)
设 \(V\) 是有限维内积空间,\(T: V \to V\) 是线性变换。子空间 \(\mathcal{M}\) 称为 \(T\) 的约化子空间(reducing subspace),如果 \(\mathcal{M}\) 和 \(\mathcal{M}^\perp\) 都是 \(T\)-不变的。
等价地,\(\mathcal{M}\) 约化 \(T\) 当且仅当 \(T\) 与正交投影 \(P_{\mathcal{M}}\) 交换:\(TP_{\mathcal{M}} = P_{\mathcal{M}}T\)。
定理 42.4 (约化子空间的等价条件)
设 \(A \in \mathbb{C}^{n \times n}\),\(\mathcal{M}\) 是 \(\mathbb{C}^n\) 的子空间。以下条件等价:
- \(\mathcal{M}\) 同时是 \(A\)-不变和 \(A^*\)-不变的。
- \(\mathcal{M}\) 和 \(\mathcal{M}^\perp\) 都是 \(A\)-不变的。
- \(AP_{\mathcal{M}} = P_{\mathcal{M}} A\),其中 \(P_{\mathcal{M}}\) 是到 \(\mathcal{M}\) 的正交投影。
- 存在酉矩阵 \(U\) 使得 \(U^*AU = \begin{pmatrix} B & 0 \\ 0 & D \end{pmatrix}\),其中 \(U\) 的前 \(k\) 列(\(k = \dim \mathcal{M}\))张成 \(\mathcal{M}\)。
证明
(1) \(\Leftrightarrow\) (2):若 \(\mathcal{M}\) 是 \(A\)-不变的,则对 \(v \in \mathcal{M}\),\(w \in \mathcal{M}^\perp\),有 \(\langle w, Av \rangle = 0\)。因此 \(\langle A^*w, v \rangle = 0\),即 \(A^*w \in \mathcal{M}^\perp\)。这说明 \(\mathcal{M}^\perp\) 是 \(A^*\)-不变的。类似地,\(\mathcal{M}^\perp\) 的 \(A\)-不变性等价于 \(\mathcal{M}\) 的 \(A^*\)-不变性。
(2) \(\Leftrightarrow\) (3):设 \(P = P_{\mathcal{M}}\)。对任意 \(v \in \mathbb{C}^n\),\(v = Pv + (I-P)v\),其中 \(Pv \in \mathcal{M}\),\((I-P)v \in \mathcal{M}^\perp\)。若 \(\mathcal{M}\) 和 \(\mathcal{M}^\perp\) 都是 \(A\)-不变的,则 \(APv \in \mathcal{M}\),\(A(I-P)v \in \mathcal{M}^\perp\)。因此 \(PAv = PAPv + PA(I-P)v = APv + 0 = APv\),即 \(PA = AP\)。反之亦然。
(3) \(\Leftrightarrow\) (4):这是直接推论,取 \(\mathcal{M}\) 和 \(\mathcal{M}^\perp\) 的标准正交基排成酉矩阵 \(U\) 即可。\(\blacksquare\)
定义 42.5 (互补不变子空间)
设 \(T: V \to V\) 是线性变换。若 \(V = \mathcal{M} \oplus \mathcal{N}\),且 \(\mathcal{M}\) 和 \(\mathcal{N}\) 都是 \(T\)-不变的,则称 \(\mathcal{N}\) 是 \(\mathcal{M}\) 关于 \(T\) 的互补不变子空间(complementary invariant subspace)。
定理 42.5 (互补不变子空间的存在性)
设 \(A \in \mathbb{C}^{n \times n}\),\(\mathcal{M}\) 是 \(A\)-不变子空间。
- 一般情形:互补不变子空间不一定存在。
- 半单情形:若 \(A\) 是可对角化的(半单的),则互补不变子空间总是存在的。
- 谱分离情形:若 \(\sigma(A|_{\mathcal{M}}) \cap \sigma(A|_{V/\mathcal{M}}) = \emptyset\)(\(\mathcal{M}\) 上和商空间上的谱不相交),则互补不变子空间存在且唯一。
证明
(1) 反例:设 \(A = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}\),\(\mathcal{M} = \operatorname{span}\{e_1\} = \ker(A)\)。若存在 \(A\)-不变的 \(\mathcal{N}\) 使得 \(\mathbb{C}^2 = \mathcal{M} \oplus \mathcal{N}\),则 \(\mathcal{N}\) 是一维的,设 \(\mathcal{N} = \operatorname{span}\{v\}\),\(v = \begin{pmatrix} a \\ b \end{pmatrix}\),\(b \neq 0\)。\(A\)-不变性要求 \(Av = \begin{pmatrix} b \\ 0 \end{pmatrix} \in \mathcal{N}\),但 \(\begin{pmatrix} b \\ 0 \end{pmatrix} \in \mathcal{M}\),\(b \neq 0\),矛盾于 \(\mathcal{M} \cap \mathcal{N} = \{0\}\)。
(3) 由谱分离条件,可以用 Riesz 投影(环路积分)构造:设 \(\Gamma\) 是围绕 \(\sigma(A|_{\mathcal{M}})\) 但不包含 \(\sigma(A|_{V/\mathcal{M}})\) 的简单闭曲线。定义谱投影 $\(P = \frac{1}{2\pi i} \oint_\Gamma (zI - A)^{-1} dz.\)$ 则 \(P^2 = P\),\(AP = PA\),\(\operatorname{Im}(P) = \mathcal{M}\),且 \(\mathcal{N} = \ker(P)\) 是唯一的互补不变子空间。\(\blacksquare\)
例 42.4
设 \(A = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 2 & 1 \\ 0 & 0 & 2 \end{pmatrix}\)。
-
\(\mathcal{M}_1 = \operatorname{span}\{e_1\}\)(特征值 \(1\))和 \(\mathcal{M}_2 = \operatorname{span}\{e_2, e_3\}\)(特征值 \(2\))的谱不相交,因此 \(\mathbb{C}^3 = \mathcal{M}_1 \oplus \mathcal{M}_2\) 是互补不变分解。
-
但 \(\mathcal{M}_3 = \operatorname{span}\{e_2\}\)(\(\ker(A - 2I)\) 中的子空间)是 \(A\)-不变的,其补空间中的谱与 \(\mathcal{M}_3\) 上的谱重叠(都包含特征值 \(2\))。可以验证不存在一维的互补不变子空间。
42.4 不变子空间与 Jordan 形¶
核心问题:Jordan 标准形如何完整描述所有不变子空间?
定理 42.6 (Jordan 链与不变子空间)
设 \(A \in \mathbb{C}^{n \times n}\) 的 Jordan 标准形中,特征值 \(\lambda\) 对应的 Jordan 块为 \(J_{n_1}(\lambda), J_{n_2}(\lambda), \ldots, J_{n_r}(\lambda)\),\(n_1 \geq n_2 \geq \cdots \geq n_r\)。设第 \(j\) 个 Jordan 块对应的 Jordan 链为 \(\{v_1^{(j)}, v_2^{(j)}, \ldots, v_{n_j}^{(j)}\}\),满足 $\((A - \lambda I)v_k^{(j)} = v_{k-1}^{(j)}, \quad v_0^{(j)} = 0.\)$
则:
- 每条 Jordan 链的前 \(k\) 个向量 \(\operatorname{span}\{v_1^{(j)}, \ldots, v_k^{(j)}\}\)(\(1 \leq k \leq n_j\))张成 \(A\)-不变子空间。
- 谱不变子空间:\(\mathcal{V}_\lambda = \ker(A - \lambda I)^{n_1}\) 是 \(A\)-不变的,且 \(\sigma(A|_{\mathcal{V}_\lambda}) = \{\lambda\}\)。
- \(\mathbb{C}^n = \bigoplus_{\lambda \in \sigma(A)} \mathcal{V}_\lambda\) 是谱不变子空间的直和分解。
证明
(1) 设 \(\mathcal{M}_k^{(j)} = \operatorname{span}\{v_1^{(j)}, \ldots, v_k^{(j)}\}\)。对任意 \(v = \sum_{i=1}^{k} c_i v_i^{(j)}\), $\(Av = \sum_{i=1}^{k} c_i Av_i^{(j)} = \sum_{i=1}^{k} c_i (\lambda v_i^{(j)} + v_{i-1}^{(j)}) = \lambda v + \sum_{i=1}^{k} c_i v_{i-1}^{(j)}.\)$ 由于 \(v_{i-1}^{(j)} \in \mathcal{M}_k^{(j)}\)(对 \(i \leq k\)),可得 \(Av \in \mathcal{M}_k^{(j)}\)。
(2) 和 (3) 直接由 Jordan 标准形的结构和第 12 章的结论得出。\(\blacksquare\)
定义 42.6 (根子空间)
设 \(A \in \mathbb{C}^{n \times n}\),\(\lambda \in \sigma(A)\)。定义升链 $\(\{0\} \subseteq \ker(A - \lambda I) \subseteq \ker(A - \lambda I)^2 \subseteq \cdots\)$ 该链在某个 \(m \leq n\) 处稳定,即 \(\ker(A - \lambda I)^m = \ker(A - \lambda I)^{m+1} = \cdots\)。稳定后的空间 \(\ker(A - \lambda I)^m\) 就是特征值 \(\lambda\) 的根子空间(root subspace),也称为广义特征空间。
例 42.5
考虑 \(A = \operatorname{diag}(J_3(0), J_2(0), J_1(1))\),其中 $\(J_3(0) = \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{pmatrix}, \quad J_2(0) = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}, \quad J_1(1) = (1).\)$
特征值 \(\lambda = 0\) 的根子空间升链:
- \(\ker(A) = \operatorname{span}\{e_1, e_4, e_6\}\)(注意 \(e_6\) 不在 \(\ker(A)\) 中,因为 \(Ae_6 = e_6 \neq 0\))。
更准确地:\(\ker(A) = \operatorname{span}\{e_1, e_4\}\)(只看 \(\lambda = 0\) 的部分),\(\dim = 2\)。
-
\(\ker(A^2)|_{\mathcal{V}_0} = \operatorname{span}\{e_1, e_2, e_4, e_5\}\),\(\dim = 4\)。
-
\(\ker(A^3)|_{\mathcal{V}_0} = \operatorname{span}\{e_1, e_2, e_3, e_4, e_5\}\),\(\dim = 5\)。
每层核空间的维数差 \(2, 2, 1\) 给出 Weyr 特征(参见第 44 章)。
42.5 子空间之间的角度¶
核心问题:如何量化两个子空间之间的"距离"或"接近程度"?
定义 42.7 (典则角度)
设 \(\mathcal{F}\) 和 \(\mathcal{G}\) 是 \(\mathbb{R}^n\)(或 \(\mathbb{C}^n\))的子空间,\(\dim \mathcal{F} = p\),\(\dim \mathcal{G} = q\),\(p \leq q\)。\(\mathcal{F}\) 与 \(\mathcal{G}\) 之间的典则角度(canonical angles,也称主角)\(\theta_1, \theta_2, \ldots, \theta_p\)(\(0 \leq \theta_1 \leq \theta_2 \leq \cdots \leq \theta_p \leq \pi/2\))递归定义如下:
其中 \(u_k\) 和 \(v_k\) 是达到上述最大值的向量。
定理 42.7 (典则角度的 SVD 刻画)
设 \(P_{\mathcal{F}}\) 和 \(P_{\mathcal{G}}\) 分别是到 \(\mathcal{F}\) 和 \(\mathcal{G}\) 的正交投影。则:
-
\(P_{\mathcal{F}} P_{\mathcal{G}}\) 的非零奇异值恰好是 \(\cos \theta_1 \geq \cos \theta_2 \geq \cdots \geq \cos \theta_p > 0\)(若某些 \(\theta_k = \pi/2\) 则对应奇异值为 \(0\))。
-
等价地,设 \(F\) 和 \(G\) 分别是 \(\mathcal{F}\) 和 \(\mathcal{G}\) 的标准正交基矩阵(列向量为基),则 \(F^* G\) 的奇异值给出 \(\cos \theta_k\)。
证明
设 \(F \in \mathbb{C}^{n \times p}\) 和 \(G \in \mathbb{C}^{n \times q}\) 是 \(\mathcal{F}\) 和 \(\mathcal{G}\) 的标准正交基矩阵。则 \(P_{\mathcal{F}} = FF^*\),\(P_{\mathcal{G}} = GG^*\)。
矩阵 \(F^*G \in \mathbb{C}^{p \times q}\) 的 SVD 为 \(F^*G = U \Sigma V^*\)。设 \(\hat{F} = FU\),\(\hat{G} = GV\),则 \(\hat{F}^* \hat{G} = U^* F^* G V = \Sigma\)。
这意味着 \(\hat{f}_k^* \hat{g}_j = \sigma_k \delta_{kj}\),其中 \(\hat{f}_k\) 和 \(\hat{g}_k\) 是 \(\hat{F}\) 和 \(\hat{G}\) 的列。由于 \(\hat{F}\) 和 \(\hat{G}\) 仍是 \(\mathcal{F}\) 和 \(\mathcal{G}\) 的标准正交基(酉变换保持正交性),比较递归定义即得 \(\sigma_k = \cos \theta_k\)。\(\blacksquare\)
定义 42.8 (\(\sin \Theta\) 矩阵和 \(\tan \Theta\) 矩阵)
基于典则角度 \(\theta_1, \ldots, \theta_p\),定义对角矩阵:
当两个子空间维数相同(\(p = q\))时,有: $\(\|\sin \Theta(\mathcal{F}, \mathcal{G})\|_2 = \|P_{\mathcal{F}} - P_{\mathcal{G}}\|_2.\)$
定理 42.8 (\(\sin \Theta\) 的几何意义)
设 \(\dim \mathcal{F} = \dim \mathcal{G} = p\)。则:
证明
利用 \(P_{\mathcal{F}} - P_{\mathcal{G}}\) 的奇异值等于 \(\sin \theta_k\)(每个出现两次)的经典结论。
具体地,取 \(\mathcal{F}\) 和 \(\mathcal{G}\) 的典则基 \(\hat{F}\) 和 \(\hat{G}\),构造酉矩阵 \(Q = (\hat{F} \mid \hat{F}_\perp \mid \hat{G}_\perp)\)(适当扩充),可以将 \(P_{\mathcal{F}} - P_{\mathcal{G}}\) 化为显式分块形式,从中读出奇异值。\(\blacksquare\)
例 42.6
设 \(\mathcal{F} = \operatorname{span}\{e_1\}\) 和 \(\mathcal{G} = \operatorname{span}\left\{\frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix}\right\}\) 是 \(\mathbb{R}^2\) 中的一维子空间。
\(F^*G = (1, 0) \cdot \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix} = \frac{1}{\sqrt{2}}\)。
因此 \(\cos \theta_1 = \frac{1}{\sqrt{2}}\),\(\theta_1 = \frac{\pi}{4}\)。这正是两条直线之间的夹角。
\(\|P_{\mathcal{F}} - P_{\mathcal{G}}\|_2 = \sin \frac{\pi}{4} = \frac{1}{\sqrt{2}} \approx 0.707\)。
42.6 Davis-Kahan sin Θ 定理¶
核心问题:当 Hermite 矩阵被扰动时,其不变子空间会偏转多少角度?
这是矩阵扰动理论中最重要的定理之一。它将矩阵的扰动大小与不变子空间的偏转角度定量联系起来。
定理 42.9 (Davis-Kahan sin Θ 定理)
设 \(A, \tilde{A} \in \mathbb{C}^{n \times n}\) 是 Hermite 矩阵,\(E = \tilde{A} - A\)。设 \(\mathcal{V}\) 是 \(A\) 的某个不变子空间(对应谱的一部分 \(\Sigma_1 \subseteq \sigma(A)\)),\(\tilde{\mathcal{V}}\) 是 \(\tilde{A}\) 的对应不变子空间(对应 \(\tilde{\Sigma}_1 \subseteq \sigma(\tilde{A})\))。设
是谱间隙(spectral gap)。若 \(\delta > 0\),则
更精确地,对于任意酉不变范数 \(\|\cdot\|\):
其中 \(R = \tilde{A}\hat{V} - \hat{V}(\hat{V}^* \tilde{A} \hat{V})\) 是残差,\(\hat{V}\) 是 \(\mathcal{V}\) 的标准正交基矩阵。
证明
关键思路:利用 Sylvester 方程建立 \(\sin \Theta\) 与扰动的关系。
设 \(U = (\hat{V} \mid \hat{V}_\perp)\) 是酉矩阵,其中 \(\hat{V}\) 的列张成 \(\mathcal{V}\),\(\hat{V}_\perp\) 的列张成 \(\mathcal{V}^\perp\)。类似地,\(\tilde{U} = (\hat{\tilde{V}} \mid \hat{\tilde{V}}_\perp)\)。
由于 \(\mathcal{V}\) 是 \(A\) 的不变子空间, $\(U^* A U = \begin{pmatrix} A_1 & 0 \\ 0 & A_2 \end{pmatrix},\)$ 其中 \(\sigma(A_1) = \Sigma_1\),\(\sigma(A_2) = \sigma(A) \setminus \Sigma_1\)。
设 \(\tilde{V}_\perp^* \hat{V} = S\)(这个矩阵与 \(\sin \Theta\) 密切相关——实际上 \(S\) 的奇异值就是 \(\sin \theta_k\))。
由 \(\tilde{A} \hat{\tilde{V}} = \hat{\tilde{V}} \tilde{A}_1\) 可得 \(\hat{\tilde{V}}_\perp^* \tilde{A} \hat{\tilde{V}} = 0\)。利用 \(\tilde{A} = A + E\),
将 \(\hat{\tilde{V}}\) 分解到 \(\mathcal{V}\) 和 \(\mathcal{V}^\perp\) 上,设 \(\hat{V}^* \hat{\tilde{V}} = C\)(奇异值为 \(\cos \theta_k\)),\(\hat{V}_\perp^* \hat{\tilde{V}} = S'\)(奇异值为 \(\sin \theta_k\))。
经过代数运算,可以得到 Sylvester 方程 $\(A_2 S' - S' A_1 = -\hat{V}_\perp^* E \hat{\tilde{V}} + O(\|E\|^2).\)$
由 Sylvester 方程的解估计(利用谱间隙 \(\delta\)): $\(\|S'\| \leq \frac{\|\hat{V}_\perp^* E \hat{\tilde{V}}\|}{\delta} \leq \frac{\|E\|}{\delta}.\)$
由于 \(S'\) 的奇异值是 \(\sin \theta_k\),这就给出了所需的估计。
严格的证明需要更仔细地处理高阶项,使用如下更精确的 Sylvester 方程:
此方程精确成立(无高阶项),因为 \(A \hat{V}_\perp = \hat{V}_\perp A_2\) 且 \(\tilde{A} \hat{\tilde{V}} = \hat{\tilde{V}} \tilde{A}_1\)。由 \(\sigma(A_2) \cap \sigma(\tilde{A}_1) = \emptyset\)(当 \(\|E\| < \delta/2\) 时成立),Sylvester 方程有唯一解,且 $\(\|\hat{V}_\perp^* \hat{\tilde{V}}\| \leq \frac{\|\hat{V}_\perp^* E \hat{\tilde{V}}\|}{\min_{\lambda \in \sigma(A_2), \mu \in \sigma(\tilde{A}_1)} |\lambda - \mu|} \leq \frac{\|E\|}{\delta - \|E\|}.\)$
当 \(\|E\|\) 相对于 \(\delta\) 足够小时,这给出 \(\|\sin \Theta\| \lesssim \|E\|/\delta\)。\(\blacksquare\)
例 42.7 (PCA 扰动分析)
在主成分分析(PCA)中,总体协方差矩阵 \(\Sigma\) 的前 \(k\) 个特征向量张成的子空间 \(\mathcal{V}_k\) 是我们感兴趣的对象。样本协方差矩阵 \(\hat{\Sigma}\) 是 \(\Sigma\) 的扰动估计。
设 \(\lambda_1 \geq \cdots \geq \lambda_n\) 是 \(\Sigma\) 的特征值。前 \(k\) 个特征向量的谱间隙为 $\(\delta = \lambda_k - \lambda_{k+1}.\)$
Davis-Kahan 定理给出: $\(\|\sin \Theta(\mathcal{V}_k, \hat{\mathcal{V}}_k)\|_F \leq \frac{\|\hat{\Sigma} - \Sigma\|_F}{\lambda_k - \lambda_{k+1}}.\)$
数值例子:设 \(n = 100\),\(k = 3\),\(\lambda_3 = 5\),\(\lambda_4 = 1\)(谱间隙 \(\delta = 4\)),\(\|\hat{\Sigma} - \Sigma\|_F = 0.8\)。则
即前 3 个主成分方向的偏转(以 Frobenius 范数度量的 \(\sin \Theta\))不超过 \(0.2\)。
例 42.8 (具体矩阵的 Davis-Kahan 估计)
设 $\(A = \begin{pmatrix} 5 & 0 \\ 0 & 1 \end{pmatrix}, \quad \tilde{A} = \begin{pmatrix} 5 & 0.3 \\ 0.3 & 1 \end{pmatrix}.\)$
\(E = \tilde{A} - A = \begin{pmatrix} 0 & 0.3 \\ 0.3 & 0 \end{pmatrix}\),\(\|E\|_2 = 0.3\)。
谱间隙 \(\delta = 5 - 1 = 4\)。\(A\) 的特征向量 \(v_1 = e_1\) 张成 \(\mathcal{V} = \operatorname{span}\{e_1\}\)。
\(\tilde{A}\) 的特征值为 \(\frac{6 \pm \sqrt{16.36}}{2} \approx 5.0225, 0.9775\),对应特征向量 \(\tilde{v}_1 \approx \begin{pmatrix} 0.9978 \\ 0.0665 \end{pmatrix}\)。
实际 \(\sin \theta_1 = |e_1^* \tilde{v}_{1,\perp}| \approx 0.0665\)。
Davis-Kahan 上界为 \(\frac{0.3}{4} = 0.075\)。
估计相当紧:\(0.0665 \leq 0.075\)。
42.7 谱投影的扰动¶
核心问题:当矩阵被扰动时,谱投影(由环路积分定义的投影算子)如何变化?
定义 42.9 (谱投影)
设 \(A \in \mathbb{C}^{n \times n}\),\(\Gamma\) 是复平面中的简单闭曲线(正向),使得 \(\sigma(A)\) 的一部分 \(\Sigma_1\) 在 \(\Gamma\) 内部,其余部分 \(\Sigma_2 = \sigma(A) \setminus \Sigma_1\) 在 \(\Gamma\) 外部。则
称为 \(A\) 关于 \(\Sigma_1\) 的谱投影(spectral projection)。
定理 42.10 (谱投影的基本性质)
上述谱投影 \(P\) 满足:
- \(P^2 = P\)(\(P\) 是幂等的,即投影算子)。
- \(AP = PA\)(\(P\) 与 \(A\) 交换)。
- \(\operatorname{Im}(P)\) 是 \(A\) 的不变子空间,\(\sigma(A|_{\operatorname{Im}(P)}) = \Sigma_1\)。
- \(\ker(P)\) 也是 \(A\) 的不变子空间,\(\sigma(A|_{\ker(P)}) = \Sigma_2\)。
- 若 \(A\) 是 Hermite 矩阵,则 \(P\) 是正交投影(\(P = P^*\))。
证明
(1) 设 \(\Gamma_1\) 和 \(\Gamma_2\) 是两条嵌套的等价曲线(\(\Gamma_1\) 在 \(\Gamma_2\) 内部,但都包围 \(\Sigma_1\))。利用预解式恒等式 $\((zI - A)^{-1} - (wI - A)^{-1} = (w - z)(zI - A)^{-1}(wI - A)^{-1},\)$ 计算 \begin{align} P^2 &= \frac{1}{(2\pi i)^2} \oint_{\Gamma_1} \oint_{\Gamma_2} (zI - A)^{-1}(wI - A)^{-1} \, dw \, dz \ &= \frac{1}{(2\pi i)^2} \oint_{\Gamma_1} \oint_{\Gamma_2} \frac{(zI - A)^{-1} - (wI - A)^{-1}}{w - z} \, dw \, dz. \end{align}
对 \(w\) 积分时,\((wI - A)^{-1}\) 在 \(\Gamma_2\) 内部关于 \(w\) 全纯(因为 \(z\) 在 \(\Gamma_2\) 内部,是唯一的极点),利用留数定理得到 \(P^2 = P\)。
(2) \(A\) 与 \((zI - A)^{-1}\) 交换,因此与积分交换。
(5) 当 \(A = A^*\) 时,\((zI - A)^{-1}\) 的共轭满足 \(\overline{(zI - A)^{-1}} = (\bar{z}I - A)^{-1}\),利用谱在实轴上的对称性可得 \(P^* = P\)。\(\blacksquare\)
定理 42.11 (Kato 扰动定理)
设 \(A(t) = A + tE\) 是矩阵的解析扰动(\(t \in \mathbb{C}\),\(|t|\) 足够小)。设 \(\Gamma\) 是围绕 \(\sigma(A)\) 的一部分 \(\Sigma_1\) 的简单闭曲线,且 \(\operatorname{dist}(\Gamma, \sigma(A)) = d > 0\)。
当 \(|t| \cdot \|E\| < d\) 时,\(A(t)\) 的谱在 \(\Gamma\) 内部的部分 \(\Sigma_1(t)\) 与 \(\Sigma_1\) 具有相同数量的特征值(计重数),且谱投影
是 \(t\) 的解析函数。特别地:
其中
证明
关键是预解式的 Neumann 级数展开。当 \(|t| \cdot \|E\| < d\) 时,对 \(z \in \Gamma\): $\((zI - A(t))^{-1} = (zI - A - tE)^{-1} = \left[(zI - A)(I - t(zI - A)^{-1}E)\right]^{-1}.\)$
由于 \(\|t(zI - A)^{-1}E\| \leq |t| \cdot \|E\| / d < 1\),Neumann 级数 $\((zI - A(t))^{-1} = \sum_{k=0}^{\infty} t^k \left[(zI - A)^{-1} E\right]^k (zI - A)^{-1}\)$ 一致收敛。逐项积分即得 \(P(t)\) 的级数展开。\(\blacksquare\)
例 42.9 (一阶谱投影扰动)
设 \(A = \operatorname{diag}(\lambda_1, \lambda_2)\)(\(\lambda_1 \neq \lambda_2\)),\(E = \begin{pmatrix} e_{11} & e_{12} \\ e_{21} & e_{22} \end{pmatrix}\)。
\(P = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\) 是 \(A\) 关于 \(\{\lambda_1\}\) 的谱投影。
一阶扰动:取 \(\Gamma\) 围绕 \(\lambda_1\), $\(P^{(1)} = -\frac{1}{2\pi i} \oint_\Gamma \begin{pmatrix} (z - \lambda_1)^{-1} & 0 \\ 0 & (z - \lambda_2)^{-1} \end{pmatrix} E \begin{pmatrix} (z - \lambda_1)^{-1} & 0 \\ 0 & (z - \lambda_2)^{-1} \end{pmatrix} dz.\)$
计算留数(\(z = \lambda_1\) 处): $\(P^{(1)} = \begin{pmatrix} 0 & \frac{e_{12}}{\lambda_1 - \lambda_2} \\[4pt] \frac{e_{21}}{\lambda_2 - \lambda_1} & 0 \end{pmatrix} = \begin{pmatrix} 0 & \frac{e_{12}}{\lambda_1 - \lambda_2} \\[4pt] -\frac{e_{21}}{\lambda_1 - \lambda_2} & 0 \end{pmatrix}.\)$
可以验证:\(P^{(1)}P + PP^{(1)} = P^{(1)}\)(由 \(P(t)^2 = P(t)\) 的一阶条件),且
谱间隙 \(|\lambda_1 - \lambda_2|\) 出现在分母中,与 Davis-Kahan 定理一致。
定理 42.12 (谱投影距离与 sin Θ 的关系)
设 \(A\) 和 \(\tilde{A}\) 是 Hermite 矩阵,\(P\) 和 \(\tilde{P}\) 分别是关于谱的对应部分的谱投影(正交投影),\(\dim \operatorname{Im}(P) = \dim \operatorname{Im}(\tilde{P}) = k\)。则:
因此 Davis-Kahan 定理等价于谱投影的扰动界。
证明
\(P - \tilde{P}\) 是 Hermite 矩阵(因为 \(P\) 和 \(\tilde{P}\) 都是 Hermite 的)。通过在适当的典则基下将 \(P\) 和 \(\tilde{P}\) 同时分块对角化,可以证明 \(P - \tilde{P}\) 的特征值恰好是 \(\pm \sin \theta_k\)(每个出现一次)和若干个 \(0\)。
具体地,在典则基下: $\(P = \begin{pmatrix} I & 0 \\ 0 & 0 \end{pmatrix}, \quad \tilde{P} = \begin{pmatrix} C^2 & CS \\ CS & S^2 \end{pmatrix},\)$ 其中 \(C = \cos \Theta\),\(S = \sin \Theta\) 是对角矩阵。因此 $\(P - \tilde{P} = \begin{pmatrix} S^2 & -CS \\ -CS & -S^2 \end{pmatrix},\)$ 其特征值为 \(\pm \sin \theta_k\)。从而 \(\|P - \tilde{P}\|_2 = \max_k |\sin \theta_k| = \sin \theta_{\max}\),\(\|P - \tilde{P}\|_F = \sqrt{2 \sum_k \sin^2 \theta_k} = \sqrt{2} \|\sin \Theta\|_F\)。\(\blacksquare\)
例 42.10 (综合应用)
考虑对称矩阵 $\(A = \begin{pmatrix} 10 & 0 & 0 \\ 0 & 5 & 0 \\ 0 & 0 & 1 \end{pmatrix}\)$ 及其扰动 \(\tilde{A} = A + \epsilon E\),其中 \(E\) 是随机对称矩阵,\(\|E\|_2 = 1\),\(\epsilon = 0.1\)。
-
关于特征值 \(\{10\}\)(\(\mathcal{V} = \operatorname{span}\{e_1\}\)),谱间隙 \(\delta_1 = 10 - 5 = 5\)。 Davis-Kahan 估计:\(\sin \theta_1 \leq \epsilon / \delta_1 = 0.1 / 5 = 0.02\)。
-
关于特征值 \(\{10, 5\}\)(\(\mathcal{V} = \operatorname{span}\{e_1, e_2\}\)),谱间隙 \(\delta_2 = 5 - 1 = 4\)。 Davis-Kahan 估计:\(\|\sin \Theta\|_2 \leq 0.1 / 4 = 0.025\)。
这些估计表明,谱间隙越大,不变子空间对扰动越稳定。