第 24 章 矩阵流形¶
前置:矩阵群 (Ch55A) · 矩阵微积分 (Ch47A) · 微分几何基础
本章脉络:从欧氏空间到曲面约束 \(\to\) 矩阵流形 (Matrix Manifolds) 的定义 \(\to\) 典型流形:Stiefel 流形(标准正交基)、Grassmann 流形(子空间)、正定矩阵流形 \(\to\) 切空间 (Tangent Space) 与法空间 \(\to\) 黎曼度量 (Riemannian Metric) \(\to\) 指数映射与对数映射(测地线) \(\to\) 流形上的最优化:黎曼梯度下降 (Riemannian GD) \(\to\) 应用:低秩矩阵恢复、计算机视觉中的姿态估计、主成分分析 (PCA) 的几何推广
延伸:矩阵流形是研究“带约束”矩阵演化的终极几何框架;它将复杂的矩阵约束(如 \(Q^T Q = I\))转化为流形的内在属性,使得我们能在弯曲的算子空间中进行“平滑”的梯度优化,是现代非线性信号处理的核心
在许多实际问题中,我们需要在满足特定约束的矩阵集合中寻找最优解。例如,在正交约束下的优化。矩阵流形(Matrix Manifolds)将这些集合视为高维空间中的光滑曲面。通过引入黎曼几何(Riemannian Geometry)的工具,我们可以直接在这些曲面上进行梯度下降或牛顿迭代,而无需担心破坏约束。本章将介绍这一作为现代最优化算法顶层的几何视角。
24.1 典型矩阵流形¶
定义 24.1 (Stiefel 流形 \(St(k, n)\))
由所有 \(n \times k\) 的列正交矩阵构成的集合: $\(St(k, n) = \{ X \in \mathbb{R}^{n \times k} : X^T X = I_k \}\)$ 当 \(k=n\) 时,这退化为正交群 \(O(n)\)。
定义 24.2 (正定阵流形 \(\mathcal{P}_n\))
所有 \(n \times n\) 正定对称矩阵构成的流形。其自然的黎曼度量导致了矩阵几何平均值(见 Ch46B)作为其测地线中点。
24.2 切空间与投影¶
技术:流形上的梯度
在流形上的优化分为两步: 1. 计算欧氏梯度 \(\nabla f\)。 2. 正交投影:将 \(\nabla f\) 投影到流形的切空间 \(\mathcal{T}_X \mathcal{M}\) 上,得到黎曼梯度。 3. 回退 (Retraction):沿着切方向移动后,通过映射将点重新拉回到流形上。
24.3 测地线与距离¶
定理 24.1 (测地线方程)
流形上两点之间的最短路径称为测地线。 在正定阵流形上,测地线具有显式公式: $\(\gamma(t) = A^{1/2} (A^{-1/2} B A^{-1/2})^t A^{1/2}\)$ 当 \(t=0.5\) 时,这恰好是矩阵的几何平均值。
练习题¶
1. [基础] 描述 Stiefel 流形 \(St(1, 3)\) 的几何形状。
参考答案
分析: 1. \(n=3, k=1\)。 2. 矩阵 \(X\) 是 \(3 \times 1\) 的向量 \(\mathbf{v}\)。 3. 约束条件 \(X^T X = I_1\) 意味着 \(\mathbf{v}^T \mathbf{v} = 1\)。 结论:这是 \(\mathbb{R}^3\) 中的单位球面 \(S^2\)。
2. [维数] 计算正交群 \(O(n)\) 作为矩阵流形的维数。
参考答案
计算步骤: 1. 一个 \(n \times n\) 矩阵有 \(n^2\) 个自由度。 2. 约束 \(Q^T Q = I\) 是对称的,提供了 \(n(n+1)/2\) 个独立约束。 3. 维数 \(d = n^2 - n(n+1)/2 = n(n-1)/2\)。 补充:这与反对称矩阵(李代数 \(\mathfrak{so}(n)\))的维数一致。
3. [切空间] 求单位圆 \(S^1\) 在点 \((1, 0)\) 处的切向量要求。
参考答案
求导: 1. 约束为 \(x^2 + y^2 = 1\)。 2. 对时间求导:\(2x \dot{x} + 2y \dot{y} = 0\)。 3. 在点 \((1, 0)\) 处代入:\(2(1)\dot{x} + 2(0)\dot{y} = 0 \implies \dot{x} = 0\)。 结论:切向量必须具有形式 \((0, v_y)^T\),即垂直于径向。
4. [性质] 证明:正交群 \(O(n)\) 的切空间由 \(Q \Omega\) 组成,其中 \(\Omega\) 是反对称阵。
参考答案
证明: 1. 令曲线 \(\gamma(t) = Q(t)\) 且 \(Q(0) = Q\)。 2. 满足 \(Q(t)^T Q(t) = I\)。 3. 两边求导:\(\dot{Q}^T Q + Q^T \dot{Q} = 0\)。 4. 令 \(\Omega = Q^T \dot{Q}\)。 5. 则 \(\Omega^T + \Omega = (Q^T \dot{Q})^T + Q^T \dot{Q} = \dot{Q}^T Q + Q^T \dot{Q} = 0\)。 结论:\(\Omega\) 是反对称的,且 \(\dot{Q} = Q\Omega\)。
5. [Retraction] 为什么在流形优化中需要“回退”映射?
参考答案
理由: 切空间是流形的线性逼近(平面的)。 当我们沿着切向量 \(\eta\) 移动一小步 \(X + \eta\) 时,由于流形是弯曲的,新点通常会“脱离”流形表面。回退映射(如 QR 分解的 \(Q\) 部分)将这个脱离的点重新投影回流形,确保迭代的合法性。
6. [Grassmann] 简述 Grassmann 流形 \(Gr(k, n)\) 与 Stiefel 流形的关系。
参考答案
联系: Grassmann 流形是 Stiefel 流形的商空间。 \(Gr(k, n) = St(k, n) / O(k)\)。 这意味着在 Grassmannian 中,我们不关心基向量的具体选择,只关心它们张成的子空间。如果两个矩阵 \(X_1, X_2\) 的列张成同一个空间,它们在 Grassmann 流形中被视为同一点。
7. [黎曼梯度] 若欧氏梯度为 \(G\),流形为正交群,求黎曼梯度。
参考答案
公式: \(\operatorname{grad} f(X) = G - X G^T X\)(针对分子布局)或类似的对称化投影。 其核心是将通用梯度中垂直于切平面的分量剔除。
8. [应用] 矩阵流形如何用于低秩矩阵完成(Matrix Completion)?
参考答案
固定秩 \(r\) 的矩阵构成一个流形。 通过在“秩 \(r\) 流形”上直接进行梯度下降,可以确保在整个优化过程中矩阵的秩始终保持为 \(r\),这比在全空间进行核范数正则化(见 Ch62)更具针对性且计算开销更低。
9. [距离] 正定阵流形上的黎曼距离与欧氏距离有何不同?
参考答案
对比: - 欧氏距离:\(\|A - B\|_F\)。容易导致负特征值问题(如果路径越过边界)。 - 黎曼距离:\(\|\ln(A^{-1/2} B A^{-1/2})\|_F\)。它考虑了空间的曲率,使得边界(奇异阵)位于无穷远处。这种距离对伸缩变换具有不变性。
10. [应用] 简述流形优化在计算机视觉“姿态估计”中的作用。
参考答案
相机的旋转属于 \(SO(3)\) 流形。 利用矩阵流形算法,我们可以直接在 \(SO(3)\) 上优化相机的参数,避免了使用欧拉角导致的万向节死锁,也避免了使用四元数时需要不断归一化的麻烦,实现了最高效的几何配准。
本章小结¶
矩阵流形是线性代数向几何最优化跨越的阶梯:
- 约束的内在化:它将繁琐的非线性等式约束转化为曲面的几何特征,确立了“在约束中自由运动”的算法逻辑。
- 曲率的度量:通过黎曼度量和测地线,矩阵空间从平坦的网格进化为具有深度的几何实体,为定义算子间的自然距离提供了唯一工具。
- 计算的优雅:流形优化证明了最复杂的矩阵约束问题依然可以通过梯度的投影与回退来解决,是现代大规模工业视觉、机器人学和信号恢复的数学引擎。