第 24 章 矩阵流形¶
前置:正交矩阵(Ch7) · SVD(Ch8) · 正定矩阵(Ch7)
脉络:矩阵约束集 → 光滑流形 → Riemannian 几何(测地线/梯度) → 流形优化
核心对象:\(O(n)\) / \(\text{St}(k,n)\) / \(\text{Gr}(k,n)\) / \(\mathcal{P}(n)\) ——将约束优化转化为流形上的无约束优化 → 链接 Ch25
延伸:矩阵流形在计算机视觉(本质矩阵估计、形状分析)、机器人学(姿态估计 \(SO(3)\))、医学影像(扩散张量 MRI)、机器学习(低秩优化、子空间跟踪)中有广泛应用
矩阵流形(Matrix Manifold)是指由满足特定约束条件的矩阵所构成的光滑流形。这些流形在控制理论、信号处理、计算机视觉、机器学习等领域中无处不在。本章将系统介绍若干重要的矩阵流形,包括一般线性群、正交群、Stiefel 流形、Grassmann 流形和正定矩阵流形,以及它们上的微分几何结构与优化方法。
24.1 矩阵流形基本概念¶
基础工具箱:嵌入子流形(\(h^{-1}(0)\), 隐函数定理) → 切空间(\(\ker Dh\)) → Riemannian 度量(切空间上的内积) → 测地线(局部最短路) → 指数映射
我们首先回顾流形论的基本语言,并说明矩阵集合如何自然地获得流形结构。
定义 24.1 (光滑流形)
一个 光滑流形(smooth manifold)\(\mathcal{M}\) 是一个 Hausdorff 的第二可数拓扑空间,配备一个极大光滑图册 \(\{(U_\alpha, \varphi_\alpha)\}\),其中每个 \(U_\alpha\) 是 \(\mathcal{M}\) 的开子集,\(\varphi_\alpha: U_\alpha \to \mathbb{R}^d\) 为同胚,且转移映射 \(\varphi_\beta \circ \varphi_\alpha^{-1}\) 为光滑映射。\(d\) 称为 \(\mathcal{M}\) 的维数。
定义 24.2 (嵌入子流形)
设 \(\mathcal{M}\) 为 \(\mathbb{R}^{n \times p}\) 的子集。若 \(\mathcal{M}\) 可以表示为
其中 \(h: \mathbb{R}^{n \times p} \to \mathbb{R}^m\) 为光滑映射,且对所有 \(X \in \mathcal{M}\),\(Dh(X)\) 为满秩映射(即 \(\operatorname{rank}(Dh(X)) = m\)),则 \(\mathcal{M}\) 为 \(\mathbb{R}^{n \times p}\) 的一个 嵌入子流形(embedded submanifold),维数为 \(np - m\)。
定义 24.3 (切空间)
设 \(\mathcal{M}\) 为光滑流形,\(X \in \mathcal{M}\)。\(\mathcal{M}\) 在 \(X\) 处的 切空间(tangent space)\(T_X \mathcal{M}\) 是所有经过 \(X\) 的光滑曲线在 \(X\) 处的速度向量的集合:
若 \(\mathcal{M} = h^{-1}(0)\) 为嵌入子流形,则 \(T_X \mathcal{M} = \ker(Dh(X))\)。
定义 24.4 (Riemannian 度量)
流形 \(\mathcal{M}\) 上的一个 Riemannian 度量(Riemannian metric)是一个光滑地依赖于底点的内积族 \(\langle \cdot, \cdot \rangle_X: T_X\mathcal{M} \times T_X\mathcal{M} \to \mathbb{R}\),\(X \in \mathcal{M}\)。配备 Riemannian 度量的流形称为 Riemannian 流形。
定义 24.5 (测地线)
Riemannian 流形 \((\mathcal{M}, \langle \cdot, \cdot \rangle)\) 上的 测地线(geodesic)是局部最短曲线。形式上,\(\gamma: [0, 1] \to \mathcal{M}\) 为测地线当且仅当 \(\nabla_{\dot\gamma} \dot\gamma = 0\),其中 \(\nabla\) 为 Levi-Civita 联络。指数映射(exponential map)\(\operatorname{Exp}_X: T_X\mathcal{M} \to \mathcal{M}\) 将切向量 \(\xi\) 映射到从 \(X\) 出发、初始速度为 \(\xi\) 的测地线在 \(t = 1\) 时的端点。
定理 24.1 (隐函数定理与子流形)
设 \(h: \mathbb{R}^{n \times p} \to \mathbb{R}^m\) 为光滑映射,\(\mathbf{0}\) 为 \(h\) 的正则值(即对所有 \(X \in h^{-1}(\mathbf{0})\),\(Dh(X)\) 满秩)。则 \(\mathcal{M} = h^{-1}(\mathbf{0})\) 为 \(\mathbb{R}^{n \times p}\) 的光滑嵌入子流形,维数为 \(np - m\)。
证明
这是隐函数定理的直接推论。对 \(X_0 \in \mathcal{M}\),\(Dh(X_0)\) 满秩意味着存在 \(X_0\) 的邻域 \(U\) 和光滑映射 \(\psi\),使得 \(\mathcal{M} \cap U\) 可以参数化为 \(np - m\) 个自由变量的光滑函数的图像。这些局部参数化构成 \(\mathcal{M}\) 的光滑图册。\(\blacksquare\)
例 24.1
单位球面作为子流形。
\(S^{n-1} = \{\mathbf{x} \in \mathbb{R}^n : \|\mathbf{x}\|^2 = 1\} = h^{-1}(0)\),其中 \(h(\mathbf{x}) = \mathbf{x}^T\mathbf{x} - 1\)。\(Dh(\mathbf{x}) = 2\mathbf{x}^T\),对 \(\mathbf{x} \in S^{n-1}\) 显然满秩。切空间 \(T_{\mathbf{x}} S^{n-1} = \{\mathbf{v} : \mathbf{x}^T \mathbf{v} = 0\}\),即与 \(\mathbf{x}\) 正交的向量。
24.2 一般线性群 \(GL(n)\)¶
母群:\(GL(n) = \{\det \ne 0\}\) 是 \(\mathbb{R}^{n^2}\) 的开集 → Lie 代数 \(\mathfrak{gl}(n) = \mathbb{R}^{n \times n}\) → 矩阵指数 \(e^A\) 连接 Lie 代数与 Lie 群
所有矩阵 Lie 群都是 \(GL(n)\) 的闭子群(Cartan 定理)
定义 24.6 (一般线性群)
一般线性群(General Linear Group)\(GL(n, \mathbb{R})\)(简记 \(GL(n)\))是所有 \(n \times n\) 可逆实矩阵的集合:
\(GL(n)\) 关于矩阵乘法构成群,且为 \(\mathbb{R}^{n \times n}\) 的开子集,因此是 \(n^2\) 维光滑流形。类似地,\(GL(n, \mathbb{C})\) 为所有 \(n \times n\) 可逆复矩阵之群。
定义 24.7 (Lie 代数 \(\mathfrak{gl}(n)\))
\(GL(n)\) 的 Lie 代数(Lie algebra)\(\mathfrak{gl}(n)\) 是 \(GL(n)\) 在单位元 \(I\) 处的切空间,即全体 \(n \times n\) 实矩阵:
\(\mathfrak{gl}(n)\) 上的 Lie 括号定义为矩阵交换子 \([A, B] = AB - BA\)。
定理 24.2 (矩阵指数映射)
映射 \(\exp: \mathfrak{gl}(n) \to GL(n)\),\(A \mapsto e^A = \sum_{k=0}^{\infty} \frac{A^k}{k!}\) 是光滑映射,且在 \(A = 0\) 处的微分为恒等映射。因此 \(\exp\) 在 \(0\) 的邻域内是微分同胚。
证明
矩阵指数级数 \(e^A = \sum_{k=0}^\infty \frac{A^k}{k!}\) 对所有 \(A \in \mathbb{R}^{n \times n}\) 绝对收敛(因为 \(\|A^k/k!\| \le \|A\|^k/k!\),级数的和不超过 \(e^{\|A\|}\))。光滑性由幂级数的逐项微分得到。在 \(A = 0\) 处,\(D\exp(0)(H) = \frac{d}{dt}\Big|_{t=0} e^{tH} = H\),故微分为恒等映射。由反函数定理,\(\exp\) 在 \(0\) 的邻域内为微分同胚。\(\blacksquare\)
定理 24.3 (\(GL(n)\) 上的左不变向量场)
\(GL(n)\) 上的每个左不变向量场由其在 \(I\) 处的值唯一确定。具体地,对 \(A \in \mathfrak{gl}(n)\),左不变向量场 \(\tilde{A}\) 定义为 \(\tilde{A}_g = gA\)(\(g \in GL(n)\)),且 \([\tilde{A}, \tilde{B}] = \widetilde{[A, B]}\)。
证明
左平移 \(L_g: GL(n) \to GL(n)\),\(h \mapsto gh\) 的微分为 \((dL_g)_h(V) = gV\)。向量场 \(\tilde{A}\) 满足 \((dL_g)\tilde{A}_h = g(hA) = (gh)A = \tilde{A}_{gh}\),故左不变。Lie 括号 \([\tilde{A}, \tilde{B}]_I = \frac{d}{dt}\Big|_{t=0} \frac{d}{ds}\Big|_{s=0} (e^{tA} e^{sB} e^{-tA}) = AB - BA = [A, B]\)。\(\blacksquare\)
例 24.2
\(GL(2)\) 上的指数映射。
设 \(A = \begin{pmatrix} 0 & -\theta \\ \theta & 0 \end{pmatrix}\),则
这表明反对称矩阵通过指数映射生成旋转矩阵。
例 24.3
对角矩阵的指数。
设 \(D = \operatorname{diag}(d_1, \ldots, d_n)\),则 \(e^D = \operatorname{diag}(e^{d_1}, \ldots, e^{d_n})\)。\(e^D\) 的特征值都是正的,因此 \(e^D\) 是正定对角矩阵。
24.3 正交群与酉群¶
约束 → 流形:\(Q^TQ = I\) → \(O(n)\),\(\dim = \frac{n(n-1)}{2}\) · Lie 代数 = 反对称矩阵 \(\text{Skew}(n)\) → 测地线 \(\gamma(t) = Qe^{t\Omega}\) · Ch23 GOE 的不变性正是 \(O(n)\)-共轭不变
正交群和酉群是最重要的矩阵 Lie 群,在几何、物理和工程中有广泛应用。
定义 24.8 (正交群)
正交群(Orthogonal Group)\(O(n)\) 是所有 \(n \times n\) 正交矩阵的集合:
\(O(n)\) 是紧 Lie 群,维数为 \(\frac{n(n-1)}{2}\)。特殊正交群(Special Orthogonal Group)\(SO(n) = \{Q \in O(n) : \det(Q) = 1\}\) 是 \(O(n)\) 的单位连通分量。
定义 24.9 (酉群)
酉群(Unitary Group)\(U(n)\) 是所有 \(n \times n\) 酉矩阵的集合:
\(U(n)\) 是紧 Lie 群,(实)维数为 \(n^2\)。特殊酉群(Special Unitary Group)\(SU(n) = \{U \in U(n) : \det(U) = 1\}\),维数为 \(n^2 - 1\)。
定理 24.4 (\(O(n)\) 和 \(SO(n)\) 的切空间和 Lie 代数)
\(O(n)\) 在 \(I\) 处的切空间(即 Lie 代数)为反对称矩阵空间:
更一般地,在 \(Q \in O(n)\) 处,\(T_Q O(n) = \{ Q\Omega : \Omega \in \operatorname{Skew}(n) \}\)。\(SO(n)\) 的 Lie 代数也是 \(\operatorname{Skew}(n)\)(因为 \(\det\) 条件不影响切空间)。
证明
\(O(n)\) 由约束 \(h(Q) = Q^T Q - I = 0\) 定义。\(Dh(Q)(V) = V^T Q + Q^T V\)。在 \(Q = I\) 处,\(Dh(I)(V) = V^T + V\)。因此
\(\operatorname{Skew}(n)\) 的维数为 \(\frac{n(n-1)}{2}\),与 \(O(n)\) 的维数一致。
在一般点 \(Q\) 处,令 \(\gamma(t) = Qe^{t\Omega}\)(\(\Omega \in \operatorname{Skew}(n)\)),则 \(\gamma(0) = Q\),\(\gamma(t)^T\gamma(t) = e^{t\Omega^T}Q^TQe^{t\Omega} = e^{-t\Omega}e^{t\Omega} = I\),故 \(\gamma(t) \in O(n)\),\(\gamma'(0) = Q\Omega\)。这说明 \(T_Q O(n) \supseteq \{Q\Omega : \Omega \in \operatorname{Skew}(n)\}\)。维数计数表明这是等式。\(\blacksquare\)
定理 24.5 (\(U(n)\) 的 Lie 代数)
\(U(n)\) 的 Lie 代数为反 Hermite 矩阵空间:
\(SU(n)\) 的 Lie 代数为 \(\mathfrak{su}(n) = \{ \Omega \in \mathfrak{u}(n) : \operatorname{tr}(\Omega) = 0 \}\)。
证明
与 \(O(n)\) 的证明完全类似。约束为 \(U^* U = I\),微分得 \(V^* U + U^* V = 0\),在 \(U = I\) 时 \(V^* + V = 0\),即 \(V\) 为反 Hermite 矩阵。对于 \(SU(n)\),额外条件 \(\det(U) = 1\) 的微分为 \(\operatorname{tr}(U^{-1}V) = \operatorname{tr}(V) = 0\)(在 \(U = I\) 处)。\(\blacksquare\)
定理 24.6 (\(O(n)\) 上的测地线)
赋予 \(O(n)\) 双不变度量 \(\langle \xi, \eta \rangle_Q = \operatorname{tr}(\xi^T \eta)\)(\(\xi, \eta \in T_Q O(n)\)),则从 \(Q\) 出发、初始速度 \(Q\Omega\)(\(\Omega \in \operatorname{Skew}(n)\))的测地线为
\(O(n)\) 上两点 \(Q_1, Q_2\) 之间的测地距离为
其中 \(\theta_k\) 为 \(Q_1^T Q_2\) 的旋转角。
证明
在双不变度量下,\(O(n)\) 上的 Levi-Civita 联络为 \(\nabla_{\tilde{A}}\tilde{B} = \frac{1}{2}[\tilde{A}, \tilde{B}]\)(其中 \(\tilde{A}, \tilde{B}\) 为左不变向量场)。曲线 \(\gamma(t) = Qe^{t\Omega}\) 的速度为 \(\dot\gamma = Qe^{t\Omega}\Omega\),对应的左不变速度 \(\gamma^{-1}\dot\gamma = \Omega\) 为常数,因此 \(\nabla_{\dot\gamma}\dot\gamma = 0\),即 \(\gamma\) 为测地线。距离公式由测地线长度 \(L = \int_0^1 \|\dot\gamma\|dt = \|\Omega\|_F\) 得到,其中 \(e^\Omega = Q_1^T Q_2\)。\(\blacksquare\)
例 24.4
\(SO(3)\) 中的旋转。
\(SO(3)\) 的 Lie 代数 \(\mathfrak{so}(3)\) 由 \(3 \times 3\) 反对称矩阵组成,维数为 \(3\)。标准基为
每个 \(\Omega \in \mathfrak{so}(3)\) 可以写成 \(\Omega = \theta_1 L_1 + \theta_2 L_2 + \theta_3 L_3\),对应绕轴 \((\theta_1, \theta_2, \theta_3)\) 旋转角度 \(\|\boldsymbol{\theta}\|\)。Rodrigues 公式给出
例 24.5
\(O(n)\) 的维数计算。
\(O(n)\) 由约束 \(Q^T Q = I\) 定义,共 \(n^2\) 个矩阵元素,\(\frac{n(n+1)}{2}\) 个独立约束(因为 \(Q^T Q\) 是对称的)。因此
例如 \(\dim O(3) = 3\),\(\dim O(4) = 6\)。
24.4 Stiefel 流形¶
推广链:\(S^{n-1} = \text{St}(1,n) \subset \text{St}(k,n) \subset O(n) = \text{St}(n,n)\) · 切空间:\(X^TZ\) 反对称 → 投影 \(\Pi_X(Z) = Z - X\text{sym}(X^TZ)\) → 链接 §24.8 Riemannian 梯度下降
Stiefel 流形推广了正交群,是约束优化中的重要对象。
定义 24.10 (Stiefel 流形)
Stiefel 流形(Stiefel manifold)\(V_k(\mathbb{R}^n)\)(\(1 \le k \le n\))是 \(\mathbb{R}^n\) 中所有 \(k\)-标准正交组的集合:
当 \(k = n\) 时,\(V_n(\mathbb{R}^n) = O(n)\);当 \(k = 1\) 时,\(V_1(\mathbb{R}^n) = S^{n-1}\)。\(\operatorname{St}(k, n)\) 是紧流形,维数为 \(nk - \frac{k(k+1)}{2}\)。
定理 24.7 (Stiefel 流形的切空间)
\(\operatorname{St}(k, n)\) 在 \(X\) 处的切空间为
等价地,\(Z \in T_X \operatorname{St}(k, n)\) 当且仅当 \(X^T Z\) 是反对称矩阵。
证明
约束为 \(h(X) = X^T X - I_k = 0\)。微分:\(Dh(X)(Z) = X^T Z + Z^T X\)。因此
验证满秩条件:\(Dh(X)\) 是从 \(\mathbb{R}^{n \times k}\) 到 \(\operatorname{Sym}(k)\)(\(k \times k\) 对称矩阵空间)的线性映射。给定任意对称矩阵 \(S\),取 \(Z = \frac{1}{2}XS\),则 \(X^T Z + Z^T X = S\),故 \(Dh(X)\) 满射。\(\blacksquare\)
定理 24.8 (Stiefel 流形上的典范度量与测地线)
赋予 \(\operatorname{St}(k, n)\) 从欧氏空间 \(\mathbb{R}^{n \times k}\) 继承的度量(典范度量)\(\langle Z_1, Z_2 \rangle = \operatorname{tr}(Z_1^T Z_2)\)。正交投影到切空间 \(T_X \operatorname{St}(k, n)\) 的公式为
其中 \(\operatorname{sym}(A) = \frac{A + A^T}{2}\)。
在此度量下,从 \(X\) 出发、初始速度 \(Z \in T_X \operatorname{St}(k, n)\) 的测地线可以通过如下方法计算:设 \(A = X^T Z\)(反对称),\(QR = (I - XX^T)Z\) 为 QR 分解(\(Q \in \mathbb{R}^{n \times k}\),\(R \in \mathbb{R}^{k \times k}\)),则
证明
投影公式:对 \(Z \in \mathbb{R}^{n \times k}\),分解 \(Z = \Pi_X(Z) + X \cdot \operatorname{sym}(X^T Z)\)。验证 \(\Pi_X(Z) \in T_X\operatorname{St}(k,n)\):\(X^T\Pi_X(Z) = X^TZ - \operatorname{sym}(X^TZ)\) 是反对称的。残差 \(X \cdot \operatorname{sym}(X^T Z)\) 与切空间正交(在典范内积下)。
测地线公式的推导需要解联络方程 \(\nabla_{\dot\gamma}\dot\gamma = 0\)。将速度分解为 \(X\) 方向和 \(X\) 的正交补方向,利用矩阵指数表示旋转,可以将测地线方程化为有限维矩阵 ODE,其解即为上述公式。详细推导见 Edelman-Arias-Smith (1998)。\(\blacksquare\)
例 24.6
\(\operatorname{St}(2, 3)\) 的维数和切空间。
\(\operatorname{St}(2, 3) = \{X \in \mathbb{R}^{3 \times 2} : X^TX = I_2\}\),维数 \(= 3 \times 2 - \frac{2 \times 3}{2} = 3\)。
取 \(X = \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{pmatrix}\),则切空间为满足 \(X^TZ\) 反对称的 \(Z \in \mathbb{R}^{3 \times 2}\):
确实是 \(3\) 维空间。
24.5 Grassmann 流形¶
商空间:\(\text{Gr}(k,n) = \text{St}(k,n)/O(k)\)——参数化 \(k\) 维子空间而非基 · 距离 = 主角 \(\theta_i = \arccos\sigma_i(X_1^TX_2)\)(SVD, Ch8)
应用:PCA = \(\text{Gr}(k,n)\) 上的优化(Ch25)· 子空间跟踪/计算机视觉
Grassmann 流形参数化固定维数的子空间,在 PCA、子空间跟踪等问题中自然出现。
定义 24.11 (Grassmann 流形)
Grassmann 流形(Grassmann manifold)\(\operatorname{Gr}(k, n)\) 是 \(\mathbb{R}^n\) 中所有 \(k\) 维子空间的集合:
\(\operatorname{Gr}(k, n)\) 可以视为 Stiefel 流形的商空间:
其中等价关系为 \(X \sim XQ\)(\(Q \in O(k)\)),因为 \(X\) 和 \(XQ\) 张成相同的子空间。\(\operatorname{Gr}(k, n)\) 的维数为 \(k(n - k)\)。
定义 24.12 (Grassmann 流形的投影表示)
每个 \(k\) 维子空间 \(\mathcal{V} \in \operatorname{Gr}(k, n)\) 可以用其正交投影矩阵 \(P = XX^T\)(\(X \in \operatorname{St}(k, n)\) 为 \(\mathcal{V}\) 的标准正交基)唯一表示。因此
定理 24.9 (Grassmann 流形的切空间)
在投影表示 \(P = XX^T\) 下,\(\operatorname{Gr}(k, n)\) 在 \(P\) 处的切空间为
等价地,在标准正交基表示下,\(T_{[X]} \operatorname{Gr}(k, n)\) 中的水平切向量为
即列空间与 \(X\) 的列空间正交的矩阵。
证明
在商空间的框架下,Stiefel 流形上的切向量 \(Z \in T_X \operatorname{St}(k, n)\) 分解为垂直分量(沿 \(O(k)\) 轨道的方向,即 \(XA\),\(A\) 反对称)和水平分量(与轨道正交的方向)。在典范度量下,水平空间为
维数为 \(k(n - k) = \dim \operatorname{Gr}(k, n)\)。\(\blacksquare\)
定理 24.10 (Grassmann 流形上的测地线与距离)
赋予 \(\operatorname{Gr}(k, n)\) 从 Stiefel 流形商结构继承的 Riemannian 度量。两个子空间 \(\mathcal{V}_1, \mathcal{V}_2 \in \operatorname{Gr}(k, n)\) 之间的测地距离为
其中 \(\theta_1, \ldots, \theta_k \in [0, \pi/2]\) 为 \(\mathcal{V}_1\) 和 \(\mathcal{V}_2\) 之间的 主角(principal angles),定义为 \(\cos\theta_i = \sigma_i(X_1^T X_2)\),\(\sigma_i\) 为奇异值。
从 \([X_1]\) 沿水平方向 \(Z\) 的测地线为:设 \(Z = U\Sigma V^T\) 为紧 SVD,则
证明
设 \(X_1, X_2 \in \operatorname{St}(k, n)\) 分别为 \(\mathcal{V}_1, \mathcal{V}_2\) 的标准正交基。\(X_1^T X_2\) 的 SVD 为 \(X_1^T X_2 = P \operatorname{diag}(\cos\theta_1, \ldots, \cos\theta_k) Q^T\)。取 \(\tilde{X}_1 = X_1 P\),\(\tilde{X}_2 = X_2 Q\),则 \(\tilde{X}_1^T \tilde{X}_2 = \operatorname{diag}(\cos\theta_i)\)。
构造测地线 \(\gamma(t) = \tilde{X}_1 \operatorname{diag}(\cos(t\theta_i)) + U_\perp \operatorname{diag}(\sin(t\theta_i))\),其中 \(U_\perp = (\tilde{X}_2 - \tilde{X}_1 \operatorname{diag}(\cos\theta_i)) \operatorname{diag}(\sin\theta_i)^{-1}\)。验证 \(\gamma(0) = [\tilde{X}_1] = [X_1]\),\(\gamma(1) = [X_2]\),且 \(\gamma\) 满足测地线方程。长度为 \(\int_0^1 \|\dot\gamma\| dt = \|\boldsymbol{\theta}\|_2\)。\(\blacksquare\)
例 24.7
\(\operatorname{Gr}(1, n)\)——实射影空间。
\(\operatorname{Gr}(1, n)\) 是 \(\mathbb{R}^n\) 中所有一维子空间(过原点的直线)的集合,即实射影空间 \(\mathbb{RP}^{n-1}\)。维数为 \(1 \times (n-1) = n - 1\)。两条直线之间的测地距离就是它们的夹角 \(\theta \in [0, \pi/2]\)。
例 24.8
计算两个子空间的主角。
设 \(X_1 = \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{pmatrix}\),\(X_2 = \frac{1}{\sqrt{2}} \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 0 \end{pmatrix}\)(已正交化)。计算
奇异值为 \(\sigma_1 = \sigma_2 = 1/\sqrt{2}\),主角 \(\theta_1 = \theta_2 = \pi/4\)。测地距离 \(d = \sqrt{(\pi/4)^2 + (\pi/4)^2} = \frac{\pi}{2\sqrt{2}}\)。
24.6 正定矩阵流形¶
特殊几何:\(\mathcal{P}(n)\) 上仿射不变度量 \(\langle \xi,\eta\rangle_P = \text{tr}(P^{-1}\xi P^{-1}\eta)\) → 测地线 \(P^{1/2}e^{tP^{-1/2}\xi P^{-1/2}}P^{1/2}\) → Hadamard 流形(非正曲率,唯一 Frechet 均值)
应用:协方差估计、扩散张量成像中的几何均值 · \(\mathcal{P}(1) = (0,\infty)\) 上距离 \(= |\ln(p/q)|\)
对称正定矩阵在统计学、扩散张量成像、协方差估计等领域中扮演重要角色。
定义 24.13 (正定矩阵流形)
对称正定矩阵流形(manifold of symmetric positive definite matrices)定义为
\(\mathcal{P}(n)\) 是 \(\operatorname{Sym}(n)\) 的一个开子集,因此是 \(\frac{n(n+1)}{2}\) 维光滑流形,切空间为 \(T_P \mathcal{P}(n) = \operatorname{Sym}(n)\)。
定义 24.14 (仿射不变 Riemannian 度量)
\(\mathcal{P}(n)\) 上的 仿射不变 Riemannian 度量(affine-invariant Riemannian metric)定义为
该度量在群作用 \(P \mapsto APA^T\)(\(A \in GL(n)\))下不变。
洞察:仿射不变度量下 \(d(P,Q) = \|\log(P^{-1/2}QP^{-1/2})\|_F\) ——距离由特征值的对数比决定,几何均值取代算术均值成为自然的"中心"概念
定理 24.11 (\(\mathcal{P}(n)\) 上的测地线)
在仿射不变度量下,\(\mathcal{P}(n)\) 上从 \(P\) 出发、初始速度 \(\xi \in \operatorname{Sym}(n)\) 的测地线为
两点 \(P, Q \in \mathcal{P}(n)\) 之间的测地距离为
其中 \(\lambda_1, \ldots, \lambda_n\) 为 \(P^{-1}Q\)(或等价地 \(P^{-1/2}QP^{-1/2}\))的特征值。
证明
在 \(P = I\) 处,度量简化为 \(\langle \xi, \eta \rangle_I = \operatorname{tr}(\xi\eta)\),测地线为 \(\gamma(t) = e^{t\xi}\)。验证:\(\gamma(0) = I\),\(\dot\gamma(0) = \xi\),且 \(\gamma(t)\) 满足 \(\mathcal{P}(n)\) 上的测地线方程 \(\ddot\gamma - \dot\gamma \gamma^{-1} \dot\gamma = 0\)(这里的运动方程由 Levi-Civita 联络 \(\nabla_\xi \eta = D_\xi \eta - \frac{1}{2}(\xi P^{-1}\eta + \eta P^{-1}\xi)\) 推导出)。
对一般 \(P\),利用等距变换 \(\Phi_A(P) = APA^T\) 将 \(P\) 映射到 \(I\)(取 \(A = P^{-1/2}\)),得到一般测地线公式。距离为
\(\blacksquare\)
定理 24.12 (\(\mathcal{P}(n)\) 上的 Frechet 均值)
设 \(P_1, \ldots, P_m \in \mathcal{P}(n)\)。其关于仿射不变度量的 Frechet 均值(Frechet mean)为
Frechet 均值存在且唯一(因为 \(\mathcal{P}(n)\) 在仿射不变度量下是非正曲率完备 Riemannian 流形,即 Hadamard 流形)。
证明
\(\mathcal{P}(n)\) 在仿射不变度量下是完备的(测地线存在于任意时间),且截面曲率 \(K \le 0\)(这可以通过计算曲率张量验证)。Hadamard 流形上的 Frechet 均值存在且唯一,这是 Cartan-Hadamard 定理和 Karcher 定理的推论。具体地,严格负曲率保证目标函数 \(f(P) = \sum_i d(P, P_i)^2\) 是严格凸的(在测地线意义下),因此有唯一极小值点。\(\blacksquare\)
例 24.9
\(\mathcal{P}(1)\) 即正实数。
\(\mathcal{P}(1) = (0, \infty)\),度量为 \(ds^2 = dp^2/p^2\)(双曲度量)。测地线为 \(\gamma(t) = p_0 e^{vt}\),距离为 \(d(p, q) = |\ln(p/q)|\)。两点 \(p, q > 0\) 的 Frechet 均值为几何均值 \(\bar{p} = (p \cdot q)^{1/2}\)(对两点情形)。
例 24.10
计算 \(2 \times 2\) 正定矩阵间的距离。
设 \(P = \begin{pmatrix} 2 & 0 \\ 0 & 1 \end{pmatrix}\),\(Q = \begin{pmatrix} 1 & 0 \\ 0 & 2 \end{pmatrix}\)。则
距离 \(d(P, Q) = \sqrt{(\ln 2)^2 + (\ln 2)^2} = \ln 2 \cdot \sqrt{2} \approx 0.980\)。
24.7 矩阵 Lie 群与 Lie 代数¶
统一理论:BCH 公式 \(e^Xe^Y = e^{X+Y+\frac{1}{2}[X,Y]+\cdots}\) 将群乘法编码为 Lie 括号 → Lie 群同态 ↔ Lie 代数同态(单连通时完全对应)
实用:\(SO(3)\) 中 Rodrigues 公式 · 机器人学/计算机视觉中的小旋转合成
本节系统讨论矩阵 Lie 群的一般理论。
定义 24.15 (矩阵 Lie 群)
矩阵 Lie 群(matrix Lie group)是 \(GL(n, \mathbb{C})\) 的闭子群 \(G\)。由 Cartan 闭子群定理,\(G\) 自动是光滑流形,因此是 Lie 群。常见的矩阵 Lie 群包括 \(GL(n), SL(n), O(n), SO(n), U(n), SU(n), Sp(2n)\) 等。
定理 24.13 (Baker-Campbell-Hausdorff 公式)
设 \(X, Y \in \mathfrak{g}\)(某 Lie 代数),且 \(\|X\|, \|Y\|\) 足够小。则存在 \(Z \in \mathfrak{g}\) 使得 \(e^X e^Y = e^Z\),且
该级数称为 Baker-Campbell-Hausdorff (BCH) 公式,其中每一项都是 \(X, Y\) 的嵌套 Lie 括号。特别地,当 \([X, Y] = 0\) 时,\(Z = X + Y\)。
证明
证明思路。 在 \(e^X e^Y = e^Z\) 两边取对数(在形式幂级数意义下),利用矩阵指数和对数的级数展开
将 \(Z = \log(e^X e^Y)\) 展开为 \(X, Y\) 的幂级数。通过 Dynkin 的显式公式,每一项可以表示为嵌套交换子。
前几项的具体验证:
收敛性在 \(\|X\| + \|Y\|\) 足够小时由 Lie 代数的完备性保证。\(\blacksquare\)
定理 24.14 (Lie 群同态与 Lie 代数同态的对应)
设 \(G, H\) 为矩阵 Lie 群,\(\mathfrak{g}, \mathfrak{h}\) 为其 Lie 代数。若 \(\Phi: G \to H\) 为 Lie 群同态(光滑群同态),则 \(d\Phi_I: \mathfrak{g} \to \mathfrak{h}\) 为 Lie 代数同态,即保持 Lie 括号:
反之,若 \(G\) 单连通,则每个 Lie 代数同态 \(\phi: \mathfrak{g} \to \mathfrak{h}\) 都可提升为唯一的 Lie 群同态 \(\Phi: G \to H\) 使得 \(d\Phi_I = \phi\)。
证明
设 \(\Phi: G \to H\) 为 Lie 群同态。对 \(X, Y \in \mathfrak{g}\),
由 \(\Phi(e^{tX}) = e^{t \, d\Phi_I(X)}\),上式等于 \([d\Phi_I(X), d\Phi_I(Y)]\)。
反方向需要用到 \(G\) 的单连通性和指数映射的局部同胚性来逐步扩展 \(\phi\) 到整个群。\(\blacksquare\)
例 24.11
\(\det: GL(n) \to \mathbb{R}^*\) 的 Lie 代数映射。
行列式 \(\det: GL(n) \to GL(1) = \mathbb{R}^*\) 是 Lie 群同态。其在 \(I\) 处的微分为
这是因为 \(\det(I + tX) = 1 + t\operatorname{tr}(X) + O(t^2)\)。对应的 Lie 代数同态为 \(\operatorname{tr}: \mathfrak{gl}(n) \to \mathfrak{gl}(1) = \mathbb{R}\),保持 Lie 括号:\(\operatorname{tr}([A, B]) = 0 = [\operatorname{tr}(A), \operatorname{tr}(B)]\)。
例 24.12
BCH 公式的应用:近似乘积。
对于小角度旋转 \(R_1 = e^{\Omega_1}, R_2 = e^{\Omega_2} \in SO(3)\),BCH 公式给出
这在机器人学和计算机视觉中用于小旋转的合成。当 \(\Omega_1, \Omega_2\) 足够小时,可以进一步近似为 \(R_1 R_2 \approx e^{\Omega_1 + \Omega_2}\)。
24.8 矩阵流形上的优化¶
核心转化:约束优化(\(X^TX=I\) 等) → 流形上无约束优化
Riemannian 梯度 = 欧氏梯度投影到切空间 → 收回映射(retraction)替代昂贵的测地线步
链接:特征值问题 = \(\text{St}(k,n)\) 上 \(\max \text{tr}(X^TAX)\)(Ch25)· PCA = \(\text{Gr}(k,n)\) 上优化
许多实际问题可以建模为矩阵流形上的优化问题。流形优化将约束优化转化为无约束的 Riemannian 优化。
定义 24.16 (Riemannian 梯度)
设 \(f: \mathcal{M} \to \mathbb{R}\) 为 Riemannian 流形 \((\mathcal{M}, \langle \cdot, \cdot \rangle)\) 上的光滑函数。\(f\) 在 \(X \in \mathcal{M}\) 处的 Riemannian 梯度(Riemannian gradient)\(\operatorname{grad} f(X) \in T_X \mathcal{M}\) 定义为满足
的唯一切向量。
定义 24.17 (收回映射)
收回映射(retraction)\(R_X: T_X \mathcal{M} \to \mathcal{M}\) 是指数映射的一阶近似,满足:
- \(R_X(0) = X\);
- \(\frac{d}{dt}\Big|_{t=0} R_X(t\xi) = \xi\),\(\forall \xi \in T_X \mathcal{M}\)。
收回映射比指数映射计算代价低,在优化算法中常用于替代测地线步。
定理 24.15 (Riemannian 梯度下降收敛性)
设 \(f: \mathcal{M} \to \mathbb{R}\) 为紧 Riemannian 流形上的光滑函数,\(R\) 为收回映射。Riemannian 梯度下降迭代
满足:在适当的步长选择(如 Armijo 线搜索)下,\(\|\operatorname{grad} f(X_k)\| \to 0\),即迭代点趋向临界点。
证明
证明思路。 利用收回映射的性质和 Taylor 展开:
在 Armijo 条件 \(f(X_{k+1}) \le f(X_k) - c \alpha_k \|\operatorname{grad} f(X_k)\|^2\)(\(0 < c < 1\))下,
由步长的下界(回溯线搜索保证 \(\alpha_k \ge \alpha_{\min} > 0\)),可得 \(\|\operatorname{grad} f(X_k)\| \to 0\)。紧性保证了下界和 Lipschitz 常数的存在。\(\blacksquare\)
定理 24.16 (Stiefel 流形上的 Riemannian 梯度)
设 \(f: \mathbb{R}^{n \times k} \to \mathbb{R}\) 为光滑函数,限制到 \(\operatorname{St}(k, n)\) 上。在典范度量下,Riemannian 梯度为
其中 \(\nabla f(X)\) 为 \(f\) 在欧氏空间中的梯度,\(\operatorname{sym}(A) = (A + A^T)/2\)。
证明
Riemannian 梯度是欧氏梯度到切空间的正交投影:\(\operatorname{grad} f(X) = \Pi_X(\nabla f(X))\)。由定理 24.8 的投影公式,\(\Pi_X(Z) = Z - X\operatorname{sym}(X^TZ)\)。代入 \(Z = \nabla f(X)\) 即得。\(\blacksquare\)
例 24.13
Stiefel 流形上的特征值问题。
求 \(A \in \operatorname{Sym}(n)\) 的前 \(k\) 个最大特征值对应的特征向量,等价于
欧氏梯度 \(\nabla f(X) = 2AX\),Riemannian 梯度为
其中利用了 \(X^TAX\) 的对称性。Riemannian 梯度上升迭代配合收回映射(如 QR 分解收回 \(R_X(Z) = \operatorname{qf}(X + Z)\),其中 \(\operatorname{qf}\) 表示 QR 分解的 Q 因子)可以求解此问题。
例 24.14
Grassmann 流形上的子空间拟合。
给定数据矩阵 \(Y \in \mathbb{R}^{n \times m}\),寻找最佳 \(k\) 维子空间以最大化投影方差:
这是 PCA 问题的流形优化表述。Riemannian 梯度为 \(\operatorname{grad} f([X]) = 2(I - XX^T)YY^TX\),收回映射可以取极分解收回 \(R_X(Z) = (X + Z)(I + Z^TZ)^{-1/2}\)。
例 24.15
正定矩阵流形上的几何均值。
给定 \(P_1, \ldots, P_m \in \mathcal{P}(n)\),几何均值(Frechet 均值)可以通过 Riemannian 梯度下降求解:
其中 \(f(P) = \frac{1}{2}\sum_i d(P, P_i)^2\),\(\log\) 为矩阵对数。迭代
在适当步长 \(\alpha\) 下收敛到几何均值。
本章小结¶
本章系统介绍了矩阵流形的理论框架和计算方法:
- 基本概念:嵌入子流形、切空间、Riemannian 度量为矩阵约束问题提供了几何语言。
- 一般线性群 \(GL(n)\) 是所有矩阵 Lie 群的母群,其 Lie 代数 \(\mathfrak{gl}(n)\) 即全矩阵空间。
- 正交群与酉群 \(O(n), U(n)\) 及其特殊子群是最基本的紧 Lie 群,Lie 代数分别为反对称和反 Hermite 矩阵空间。
- Stiefel 流形 \(\operatorname{St}(k, n)\) 参数化标准正交 \(k\)-组,是正交约束优化的自然空间。
- Grassmann 流形 \(\operatorname{Gr}(k, n)\) 参数化 \(k\) 维子空间,主角提供了子空间间的自然距离。
- 正定矩阵流形 \(\mathcal{P}(n)\) 在仿射不变度量下是非正曲率空间,具有唯一的 Frechet 均值。
- 矩阵 Lie 群与 Lie 代数通过指数映射和 BCH 公式联系。
- 流形优化将约束优化转化为 Riemannian 无约束优化,Riemannian 梯度和收回映射是核心工具。