第 10 章 矩阵分解¶
前置:线性方程组 (Ch01) · 矩阵基础 (Ch02) · 正交性 (Ch07) · 特征值 (Ch06)
本章脉络:分解论的动机(分治法与数值稳定性) \(\to\) LU 分解(高斯消元的矩阵表达) \(\to\) Cholesky 分解(对称正定阵的特权) \(\to\) QR 分解(正交化的算法实现) \(\to\) Schur 分解(酉相似与谱理论) \(\to\) LDL^T 与 LDU 分解 \(\to\) 极分解 (Polar Decomposition) \(\to\) 秩分解 \(\to\) 数值算法对比:Householder 变换 vs. Givens 旋转 \(\to\) 应用:工业级线性方程组求解器、最小二乘问题的高效求解
延伸:矩阵分解是数值线性代数 (Ch22) 的灵魂;它证明了复杂的算子可以被“拆解”为具有良定性质(如三角、正交)的组件,几乎所有的科学计算软件(LAPACK, MATLAB)都是围绕这些分解算法构建的
矩阵分解(Matrix Decomposition)是将一个矩阵表示为若干具有特殊结构的矩阵乘积的过程。这不仅能简化理论证明,更是提高数值计算效率、增强稳定性的关键。本章将系统介绍线性代数中最常用的几种分解方法,探讨它们在计算开销与精度之间的权衡。
10.1 LU 分解:消元的代数化¶
定义 10.1 (LU 分解)
将方阵 \(A\) 分解为一个下三角矩阵 \(L\) 和一个上三角矩阵 \(U\) 的乘积:\(A = LU\)。 - 存在性:若方阵 \(A\) 的所有顺序主子式均不为 0,则 \(A\) 具有唯一的 LU 分解(且 \(L\) 的对角线元素全为 1)。 - 意义:它将求解 \(Ax = b\) 转化为两个极其简单的三角系统求解:\(Ly = b\)(前代)和 \(Ux = y\)(回代)。
10.2 Cholesky 分解:对称正定的高效工具¶
定理 10.1 (Cholesky 分解)
设 \(A\) 是实对称正定矩阵,则存在唯一的下三角矩阵 \(L\)(其对角线元素均为正),使得: $\(A = LL^T\)$ 优点:计算量仅为 LU 分解的一半,且在数值上极其稳定,不需要选主元。
10.3 QR 分解:正交性之王¶
定理 10.2 (QR 分解)
每一个列满秩矩阵 \(A\) 都可以分解为 \(A = QR\)。 - \(Q\) 是正交(或酉)矩阵。 - \(R\) 是上三角可逆矩阵。 算法实现:除了 Gram-Schmidt 过程,工业界更倾向于使用 Householder 变换,因为它能更好地保持矩阵的正交性。
10.4 Schur 分解:谱理论的普适形式¶
定理 10.3 (Schur 分解)
每一个复方阵 \(A\) 都酉相似于一个上三角矩阵 \(T\): $\(U^* A U = T\)$ 其中 \(T\) 的主对角线元素即为 \(A\) 的所有特征值。 意义:这证明了任何算子在合适的基下都可以表现为“分层”的形态,是特征值理论的最一般形式。
练习题¶
1. [LU] 求 \(A = \begin{pmatrix} 1 & 2 \\ 2 & 5 \end{pmatrix}\) 的 LU 分解。
参考答案
计算步骤: 1. 执行消元:第二行减去第一行的 2 倍。 2. \(L\) 记录操作:\(l_{21} = 2\)。 3. 消元结果即为 \(U\):\(U = \begin{pmatrix} 1 & 2 \\ 0 & 5-4 \end{pmatrix} = \begin{pmatrix} 1 & 2 \\ 0 & 1 \end{pmatrix}\)。 结论:\(L = \begin{pmatrix} 1 & 0 \\ 2 & 1 \end{pmatrix}, U = \begin{pmatrix} 1 & 2 \\ 0 & 1 \end{pmatrix}\)。
2. [Cholesky] 为上题中的 \(A\) 求 Cholesky 分解。
参考答案
分析: 由于上述 LU 分解中 \(U = L^T\),这说明该矩阵是正定的。 结论:\(L = \begin{pmatrix} 1 & 0 \\ 2 & 1 \end{pmatrix}\)。验证:\(LL^T = \begin{pmatrix} 1 & 0 \\ 2 & 1 \end{pmatrix} \begin{pmatrix} 1 & 2 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 2 \\ 2 & 5 \end{pmatrix} = A\)。
3. [QR] 矩阵 \(A = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix}\) 的 QR 分解是什么?
参考答案
观察: 1. 该矩阵本身就是上三角的。 2. 检查列向量:\(\mathbf{a}_1 = (1, 0)^T, \mathbf{a}_2 = (1, 1)^T\)。它们已经满足标准正交基的顺序特征(第一个是单位向量,第二个在垂直面上)。 结论:由于 \(A\) 已是上三角且第一列已单位化,若不要求 \(Q\) 为 \(I\),可通过 G-S 得到 \(Q=I, R=A\)。
4. [Schur] 证明 Schur 分解中 \(T\) 的迹等于 \(A\) 的迹。
参考答案
证明: 1. 迹具有循环不变性:\(\operatorname{tr}(XYZ) = \operatorname{tr}(ZXY)\)。 2. \(\operatorname{tr}(T) = \operatorname{tr}(U^* A U) = \operatorname{tr}(A U U^*) = \operatorname{tr}(A I) = \operatorname{tr}(A)\)。 意义:这解释了为什么特征值之和等于矩阵对角线元素之和。
5. [存在性] 举例说明一个没有 LU 分解的非奇异矩阵。
参考答案
反例: \(\begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}\)。 分析:第一个顺序主子式为 0。在执行消元时,无法用第一行消去第二行的元素(主元为 0)。虽然该矩阵可逆,但它必须通过行交换(即 PLU 分解)才能分解。
6. [选主元] 什么是 PLU 分解?它解决了什么问题?
参考答案
定义:通过置换矩阵 \(P\) 交换行,使得 \(PA = LU\)。 作用: 1. 解决了主元为 0 导致分解不存在的问题。 2. 解决了主元过小导致数值不稳定的问题(见 Ch15)。这是所有商业数学库中解方程组的默认算法。
7. [极分解] 极分解 \(A = UP\) 中 \(P\) 满足什么性质?它在物理上代表什么?
参考答案
性质:\(P\) 是半正定矩阵(若 \(A\) 可逆则正定)。 物理意义:类比复数的极坐标表示 \(z = re^{i\theta}\)。 - \(U\)(酉阵)代表纯旋转。 - \(P\)(正定阵)代表纯拉伸(沿主轴方向)。 这一分解在连续介质力学中描述了物体的形变过程。
8. [秩分解] 若 \(\operatorname{rank}(A) = r\),将其分解为 \(A = FG\)(\(F\) 为 \(m \times r\), \(G\) 为 \(r \times n\))有什么好处?
参考答案
工程价值: 1. 存储压缩:对于巨大的低秩矩阵,存储 \(F\) 和 \(G\) 需要 \((m+n)r\) 个元素,远小于 \(mn\)。 2. 计算加速:计算 \(Ax\) 变为 \(F(Gx)\),计算量从 \(O(mn)\) 降为 \(O((m+n)r)\)。
9. [稳定性] 为什么 Householder 变换优于 Gram-Schmidt?
参考答案
数值分析: 1. 经典 Gram-Schmidt (CGS) 由于浮点数舍入误差,会迅速丢失基向量之间的正交性。 2. Householder 变换通过一系列反射矩阵操作,其正交性由矩阵相乘的结构保证,累积误差极小。 结论:Householder 是实现 QR 分解最鲁棒的方法。
10. [应用] 简述分解论如何加速求解 \(Ax=b\)。
参考答案
流程: 1. 首先进行高成本的分解(如 \(O(n^3)\) 的 LU)。 2. 针对不同的 \(b\),只需要执行 \(O(n^2)\) 的前代和回代。 3. 在实际工程(如有限元分析)中,矩阵 \(A\) 往往是固定的,而载荷 \(b\) 不断变化,这种预分解策略极大提高了仿真效率。
本章小结¶
矩阵分解是“化繁为简”的代数艺术:
- 结构映射:LU、QR 等分解将一般矩阵映射到具有优良性质(三角、正交)的子群中,确立了计算的捷径。
- 数值基石:分解论不仅是理论证明的利器,更是数值稳定性分析的护城河,区分了算法的“鲁棒”与“脆弱”。
- 信息提取:Schur 分解和秩分解展示了如何通过特定的乘积形式,将矩阵隐藏的特征值、秩等核心信息“压榨”到对角线或少数行中。