跳转至

第 33 章 广义逆

前置:矩阵运算(Ch2) · 最小二乘(Ch7) · SVD(Ch11)

本章脉络\(\{1\}\)-逆 → Moore-Penrose 逆(四个 Penrose 条件)→ SVD 表示 → 最小范数最小二乘解 → Drazin 逆 → 群逆 → 加权广义逆 → 扰动分析

延伸:Drazin 逆在奇异微分方程和 Markov 链(稳态分布计算)中不可或缺;广义逆理论推广到 Hilbert 空间中的闭算子(von Neumann 正则逆)和 Banach 代数

对于可逆方阵 \(A\),逆矩阵 \(A^{-1}\) 提供了线性方程组 \(A\boldsymbol{x} = \boldsymbol{b}\) 的唯一解。但当 \(A\) 是奇异矩阵或非方阵时,经典逆不存在。广义逆理论的核心任务是为一般矩阵定义各种"逆",使得它们在特定意义下保留逆矩阵的部分性质。

Moore(1920)和 Penrose(1955)独立定义了最重要的广义逆——Moore-Penrose 逆。Drazin(1958)从代数的观点引入了另一种广义逆。本章系统发展这些理论,揭示它们与 SVD、投影和最小二乘问题的深层联系。


33.1 内逆与 \(\{1\}\)-逆

核心问题:对于一般矩阵 \(A\),是否存在矩阵 \(X\) 使得 \(AXA = A\)?这样的 \(X\) 有什么用?

定义

定义 33.1 (\(\{1\}\)-逆)

\(A \in \mathbb{C}^{m \times n}\)。称 \(X \in \mathbb{C}^{n \times m}\)\(A\)\(\{1\}\)-逆(或内逆广义逆),若满足

\[ AXA = A \tag{1} \]

\(A\) 的所有 \(\{1\}\)-逆的集合记作 \(A\{1\}\)

定理 33.1 (\(\{1\}\)-逆的存在性)

对任何矩阵 \(A \in \mathbb{C}^{m \times n}\)\(A\{1\}\) 非空。即 \(\{1\}\)-逆总是存在的。

证明

\(\operatorname{rank}(A) = r\)。则存在可逆矩阵 \(P \in \mathbb{C}^{m \times m}\)\(Q \in \mathbb{C}^{n \times n}\) 使得

\[ A = P \begin{pmatrix} I_r & 0 \\ 0 & 0 \end{pmatrix} Q \]

这是 \(A\) 的秩分解的推论(通过行列变换化为标准形)。取

\[ X = Q^{-1} \begin{pmatrix} I_r & C \\ D & E \end{pmatrix} P^{-1} \]

其中 \(C, D, E\) 是任意大小适当的矩阵。验证:

\[ AXA = P \begin{pmatrix} I_r & 0 \\ 0 & 0 \end{pmatrix} \begin{pmatrix} I_r & C \\ D & E \end{pmatrix} \begin{pmatrix} I_r & 0 \\ 0 & 0 \end{pmatrix} Q = P \begin{pmatrix} I_r & 0 \\ 0 & 0 \end{pmatrix} Q = A \]

因此 \(X \in A\{1\}\)\(\blacksquare\)

\(\{1\}\)-逆一般不唯一。上述证明中 \(C, D, E\) 的任意性说明 \(A\{1\}\) 通常是一个无穷集合。

与相容方程组的关系

定理 33.2

线性方程组 \(A\boldsymbol{x} = \boldsymbol{b}\) 有解当且仅当对任何 \(X \in A\{1\}\)\(AX\boldsymbol{b} = \boldsymbol{b}\)

当方程组有解时,\(\boldsymbol{x}_0 = X\boldsymbol{b}\) 是一个特解,通解为

\[ \boldsymbol{x} = X\boldsymbol{b} + (I - XA)\boldsymbol{z}, \quad \boldsymbol{z} \in \mathbb{C}^n \text{ 任意} \]
证明

必要性:设 \(A\boldsymbol{x}_0 = \boldsymbol{b}\),则 \(AX\boldsymbol{b} = AXA\boldsymbol{x}_0 = A\boldsymbol{x}_0 = \boldsymbol{b}\)

充分性:若 \(AX\boldsymbol{b} = \boldsymbol{b}\),取 \(\boldsymbol{x}_0 = X\boldsymbol{b}\),则 \(A\boldsymbol{x}_0 = AX\boldsymbol{b} = \boldsymbol{b}\)

通解\(A(X\boldsymbol{b} + (I-XA)\boldsymbol{z}) = AX\boldsymbol{b} + A\boldsymbol{z} - AXA\boldsymbol{z} = \boldsymbol{b} + A\boldsymbol{z} - A\boldsymbol{z} = \boldsymbol{b}\)

反方向,若 \(A\boldsymbol{x} = \boldsymbol{b}\),令 \(\boldsymbol{z} = \boldsymbol{x}\),则 \(X\boldsymbol{b} + (I-XA)\boldsymbol{x} = X\boldsymbol{b} + \boldsymbol{x} - XA\boldsymbol{x} = X\boldsymbol{b} + \boldsymbol{x} - X\boldsymbol{b} = \boldsymbol{x}\)\(\blacksquare\)

例 33.1

\(A = \begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix}\)\(\operatorname{rank}(A) = 1\)

可以验证 \(X = \begin{pmatrix} 1/5 & 0 \\ 0 & 0 \end{pmatrix}\) 满足 \(AXA = A\)

\[ AXA = \begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix} \begin{pmatrix} 1/5 & 0 \\ 0 & 0 \end{pmatrix} \begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix} = \begin{pmatrix} 1/5 & 0 \\ 2/5 & 0 \end{pmatrix} \begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix} = \begin{pmatrix} 1/5 & 2/5 \\ 2/5 & 4/5 \end{pmatrix} \]

等等,让我们重新计算。\(AX = \begin{pmatrix} 1/5 & 0 \\ 2/5 & 0 \end{pmatrix}\)\((AX)A = \begin{pmatrix} 1/5 & 2/5 \\ 2/5 & 4/5 \end{pmatrix} \neq A\)

重新选择。取 \(X = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\)\(AXA = \begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix}\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 2 & 0 \end{pmatrix}\begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix} = \begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix} = A\)。正确。

因此 \(X = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} \in A\{1\}\)


33.2 Moore-Penrose 逆

核心问题:能否在所有广义逆中找到一个"最自然"的?

Penrose 条件

定义 33.2 (Penrose 条件)

\(A \in \mathbb{C}^{m \times n}\)\(X \in \mathbb{C}^{n \times m}\)。以下四个方程称为 Penrose 条件

  1. \(AXA = A\)
  2. \(XAX = X\)
  3. \((AX)^* = AX\)(即 \(AX\) 是 Hermite 的)
  4. \((XA)^* = XA\)(即 \(XA\) 是 Hermite 的)

满足条件 (1) 的 \(X\) 称为 \(A\)\(\{1\}\)-逆。满足所有四个条件的 \(X\) 称为 \(A\)Moore-Penrose 逆,记作 \(A^\dagger\)

定理 33.3 (Moore-Penrose 逆的唯一性)

对任何 \(A \in \mathbb{C}^{m \times n}\),满足全部四个 Penrose 条件的 \(X\) 存在且唯一。

证明

唯一性:设 \(X\)\(Y\) 都满足四个条件。则

\[ X = XAX = X(AX)^* = XX^*A^* = XX^*(AYA)^* = XX^*A^*Y^*A^* \]
\[ = X(AX)^*(AY)^* = XAXAY = XAY \]

类似地 \(Y = XAY\)。因此 \(X = Y\)

更简洁的证明:

\[ XA = (XA)^* = A^*X^*, \quad AX = (AX)^* = X^*A^* \]
\[ X = XAX = (XA)X = A^*X^*X \]
\[ Y = YAY = Y(AY) = YX^*A^* \]

因此

\[ X = A^*X^*X = A^*(XAX)^*X = A^*X^*(AX)^*X = A^*X^*X^*A^*X = (A^*X^*)(X^*A^*)X \]

这变得复杂了。用更直接的方法:

\(XA\)\(YA\) 都是 \(\mathbb{C}^n\) 上的正交投影(Hermite 且幂等),投影到 \(\operatorname{col}(A^*)\) 上。类似地 \(AX\)\(AY\) 都是投影到 \(\operatorname{col}(A)\) 上。因此 \(XA = YA\)\(AX = AY\),故

\[ X = XAX = XAY = YAY = Y \]

存在性:通过 SVD 构造,见下一小节。\(\blacksquare\)

SVD 表示

定理 33.4 (Moore-Penrose 逆的 SVD 表示)

\(A \in \mathbb{C}^{m \times n}\)\(\operatorname{rank}(A) = r\),SVD 为

\[ A = U \Sigma V^* = U \begin{pmatrix} \Sigma_r & 0 \\ 0 & 0 \end{pmatrix} V^* \]

其中 \(\Sigma_r = \operatorname{diag}(\sigma_1, \ldots, \sigma_r)\)\(\sigma_1 \geq \cdots \geq \sigma_r > 0\)。则

\[ A^\dagger = V \begin{pmatrix} \Sigma_r^{-1} & 0 \\ 0 & 0 \end{pmatrix} U^* = V \Sigma^\dagger U^* \]

其中 \(\Sigma^\dagger\) 是将 \(\Sigma\) 中每个非零奇异值取倒数、零保持为零后转置得到的矩阵。

证明

\(X = V \Sigma^\dagger U^*\),验证四个 Penrose 条件。

\(\tilde{\Sigma} = \begin{pmatrix} \Sigma_r & 0 \\ 0 & 0 \end{pmatrix}_{m \times n}\)\(\tilde{\Sigma}^\dagger = \begin{pmatrix} \Sigma_r^{-1} & 0 \\ 0 & 0 \end{pmatrix}_{n \times m}\)

(1) \(AXA = U\tilde{\Sigma}V^* \cdot V\tilde{\Sigma}^\dagger U^* \cdot U\tilde{\Sigma}V^* = U\tilde{\Sigma}\tilde{\Sigma}^\dagger\tilde{\Sigma}V^*\)

\[ \tilde{\Sigma}\tilde{\Sigma}^\dagger\tilde{\Sigma} = \begin{pmatrix} \Sigma_r & 0 \\ 0 & 0 \end{pmatrix} \begin{pmatrix} \Sigma_r^{-1} & 0 \\ 0 & 0 \end{pmatrix} \begin{pmatrix} \Sigma_r & 0 \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} I_r & 0 \\ 0 & 0 \end{pmatrix} \begin{pmatrix} \Sigma_r & 0 \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} \Sigma_r & 0 \\ 0 & 0 \end{pmatrix} = \tilde{\Sigma} \]

\(AXA = U\tilde{\Sigma}V^* = A\)。✓

(2) 类似地,\(XAX = V\tilde{\Sigma}^\dagger \tilde{\Sigma} \tilde{\Sigma}^\dagger V^* = V\tilde{\Sigma}^\dagger V^* = X\)。✓

(3) \(AX = U\tilde{\Sigma}\tilde{\Sigma}^\dagger U^* = U \begin{pmatrix} I_r & 0 \\ 0 & 0 \end{pmatrix} U^*\)。这是 Hermite 的(\(U\) 酉,中间矩阵实对角)。✓

(4) \(XA = V\tilde{\Sigma}^\dagger\tilde{\Sigma} V^* = V \begin{pmatrix} I_r & 0 \\ 0 & 0 \end{pmatrix} V^*\)。同理是 Hermite 的。✓

因此 \(X = A^\dagger\)\(\blacksquare\)

例 33.2

\(A = \begin{pmatrix} 1 & 0 \\ 0 & 0 \\ 0 & 1 \end{pmatrix}\)

SVD:\(A = U\Sigma V^*\),其中 \(\Sigma = \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{pmatrix}\)\(U = I_3\)\(V = I_2\)\(A\) 的列已正交归一)。

\[ A^\dagger = V\Sigma^\dagger U^* = I_2 \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \end{pmatrix} I_3 = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 0 & 1 \end{pmatrix} \]

验证:\(AA^\dagger = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 1 \end{pmatrix}\)(投影到 \(\operatorname{col}(A)\)),\(A^\dagger A = I_2\)(投影到 \(\operatorname{col}(A^*) = \mathbb{C}^2\))。


33.3 Moore-Penrose 逆的性质与计算

核心问题:Moore-Penrose 逆具有哪些代数和分析性质?

基本代数性质

定理 33.5 (Moore-Penrose 逆的性质)

\(A \in \mathbb{C}^{m \times n}\)。则:

  1. \((A^\dagger)^\dagger = A\)
  2. \((A^*)^\dagger = (A^\dagger)^*\)
  3. \((\alpha A)^\dagger = \alpha^{-1} A^\dagger\)(当 \(\alpha \neq 0\)
  4. \((A^*A)^\dagger = A^\dagger (A^\dagger)^*\)
  5. \((AA^*)^\dagger = (A^\dagger)^* A^\dagger\)
  6. \(A^* = A^*AA^\dagger = A^\dagger AA^*\)
  7. \(\operatorname{rank}(A^\dagger) = \operatorname{rank}(A)\)
  8. \(A\) 可逆,则 \(A^\dagger = A^{-1}\)
证明

(1) \(A\) 满足关于 \(A^\dagger\) 的四个条件的"对偶"形式(交换 \(A\)\(A^\dagger\) 的角色并利用 Hermite 条件的对称性):\(A^\dagger A A^\dagger = A^\dagger\)\(A A^\dagger A = A\)\((A^\dagger A)^* = A^\dagger A\)\((A A^\dagger)^* = A A^\dagger\)。因此 \(A\)\(A^\dagger\) 的 Moore-Penrose 逆。

(2)\(X = (A^\dagger)^*\)。验证 \(X\) 满足关于 \(A^*\) 的四个 Penrose 条件: - \(A^*XA^* = A^*(A^\dagger)^*A^* = (A A^\dagger A)^* = A^*\)。✓ - \(XA^*X = (A^\dagger)^*A^*(A^\dagger)^* = (A^\dagger AA^\dagger)^* = (A^\dagger)^* = X\)。✓ - \((A^*X)^* = (A^*(A^\dagger)^*)^* = A^\dagger A = (A^\dagger A)^* = (XA^*)^*\)... 需要仔细检查。 \((A^*X)^* = ((A^\dagger)^* A^*)^{**} = (A (A^\dagger))\)... 实际上 \(A^*X = A^*(A^\dagger)^* = (A^\dagger A)^*= A^\dagger A\),而 \((A^*X)^* = (A^\dagger A)^* = A^\dagger A = A^*X\)。✓ - \((XA^*)^* = ((A^\dagger)^*A^*)^* = A A^\dagger = (AA^\dagger)^* = XA^*\)... \(XA^* = (A^\dagger)^*A^* = (AA^\dagger)^*= AA^\dagger\)\((XA^*)^* = (AA^\dagger)^* = AA^\dagger = XA^*\)。✓

因此 \((A^\dagger)^* = (A^*)^\dagger\)

(8)\(A\) 可逆,取 \(X = A^{-1}\)\(AXA = A\)\(XAX = X\)\(AX = I = (AX)^*\)\(XA = I = (XA)^*\)\(\blacksquare\)

投影性质

定理 33.6 (投影解释)

\(A \in \mathbb{C}^{m \times n}\)\(\operatorname{rank}(A) = r\)。则:

  1. \(AA^\dagger\) 是到 \(\operatorname{col}(A)\) 上的正交投影。
  2. \(A^\dagger A\) 是到 \(\operatorname{col}(A^*) = \operatorname{row}(A)\) 上的正交投影。
  3. \(I_m - AA^\dagger\) 是到 \(\ker(A^*)\) 上的正交投影。
  4. \(I_n - A^\dagger A\) 是到 \(\ker(A)\) 上的正交投影。
证明

(1) \(AA^\dagger\) 是 Hermite 的(Penrose 条件 3)且幂等的(\((AA^\dagger)^2 = A(A^\dagger A)A^\dagger = AA^\dagger\),利用条件 1)。因此它是正交投影。

其值域:\(\operatorname{col}(AA^\dagger) \subseteq \operatorname{col}(A)\)。反方向,若 \(\boldsymbol{y} = A\boldsymbol{x}\),则 \(AA^\dagger \boldsymbol{y} = AA^\dagger A\boldsymbol{x} = A\boldsymbol{x} = \boldsymbol{y}\)(条件 1),故 \(\boldsymbol{y} \in \operatorname{col}(AA^\dagger)\)

(2) 类似证明。\(A^\dagger A\) 是 Hermite 幂等的,值域为 \(\operatorname{col}(A^\dagger A) = \operatorname{col}(A^*) = \operatorname{row}(A)\)

(3)(4)\(\mathbb{C}^m = \operatorname{col}(A) \oplus \ker(A^*)\)\(\mathbb{C}^n = \operatorname{row}(A) \oplus \ker(A)\) 直接得到。\(\blacksquare\)

极限表示

定理 33.7 (极限表示)

\(A \in \mathbb{C}^{m \times n}\)。则

\[ A^\dagger = \lim_{\epsilon \to 0^+} (A^*A + \epsilon I)^{-1} A^* = \lim_{\epsilon \to 0^+} A^*(AA^* + \epsilon I)^{-1} \]

这提供了一种正则化计算 \(A^\dagger\) 的方法(Tikhonov 正则化)。

证明

\(A = U\Sigma V^*\) 是 SVD,\(\Sigma_r = \operatorname{diag}(\sigma_1, \ldots, \sigma_r)\)

\(A^*A = V\Sigma^*\Sigma V^* = V \operatorname{diag}(\sigma_1^2, \ldots, \sigma_r^2, 0, \ldots, 0) V^*\)

\((A^*A + \epsilon I)^{-1} = V \operatorname{diag}\left(\frac{1}{\sigma_1^2 + \epsilon}, \ldots, \frac{1}{\sigma_r^2 + \epsilon}, \frac{1}{\epsilon}, \ldots, \frac{1}{\epsilon}\right) V^*\)

\((A^*A + \epsilon I)^{-1}A^* = V \operatorname{diag}\left(\frac{1}{\sigma_1^2 + \epsilon}, \ldots, \frac{1}{\sigma_r^2 + \epsilon}, \frac{1}{\epsilon}, \ldots, \frac{1}{\epsilon}\right) V^* V \Sigma^* U^*\)

\(= V \operatorname{diag}\left(\frac{\sigma_1}{\sigma_1^2 + \epsilon}, \ldots, \frac{\sigma_r}{\sigma_r^2 + \epsilon}, 0, \ldots, 0\right)_{\text{适当大小}} U^*\)

\(\epsilon \to 0^+\) 时,\(\frac{\sigma_i}{\sigma_i^2 + \epsilon} \to \frac{1}{\sigma_i}\),而零奇异值对应的项保持为 \(0\)。因此极限就是 \(V\Sigma^\dagger U^* = A^\dagger\)\(\blacksquare\)

例 33.3

\(A = \begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}\)\(\operatorname{rank}(A) = 1\)

SVD:\(\sigma_1 = 2\)\(\boldsymbol{u}_1 = \frac{1}{\sqrt{2}}(1, 1)^T\)\(\boldsymbol{v}_1 = \frac{1}{\sqrt{2}}(1, 1)^T\)

\[ A^\dagger = \boldsymbol{v}_1 \cdot \frac{1}{\sigma_1} \cdot \boldsymbol{u}_1^* = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix} \cdot \frac{1}{2} \cdot \frac{1}{\sqrt{2}}\begin{pmatrix} 1 & 1 \end{pmatrix} = \frac{1}{4}\begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix} \]

验证极限公式:\(A^*A = \begin{pmatrix} 2 & 2 \\ 2 & 2 \end{pmatrix}\)\((A^*A + \epsilon I)^{-1} = \frac{1}{(4+\epsilon)\epsilon - 4}\begin{pmatrix} 2+\epsilon & -2 \\ -2 & 2+\epsilon \end{pmatrix}\)... 实际上利用特征分解更方便。


33.4 最小范数最小二乘解

核心问题:对于一般的线性方程组 \(A\boldsymbol{x} = \boldsymbol{b}\)(可能不相容),Moore-Penrose 逆给出什么样的解?

最小二乘问题回顾

定义 33.3 (最小范数最小二乘解)

给定 \(A \in \mathbb{C}^{m \times n}\)\(\boldsymbol{b} \in \mathbb{C}^m\)最小二乘问题

\[ \min_{\boldsymbol{x} \in \mathbb{C}^n} \|A\boldsymbol{x} - \boldsymbol{b}\|_2 \]

最小二乘解的集合记为 \(\mathcal{L} = \operatorname{argmin} \|A\boldsymbol{x} - \boldsymbol{b}\|\)。在 \(\mathcal{L}\) 中范数最小的解

\[ \boldsymbol{x}^* = \operatorname{argmin}_{\boldsymbol{x} \in \mathcal{L}} \|\boldsymbol{x}\|_2 \]

称为最小范数最小二乘解

定理 33.8

对任何 \(A \in \mathbb{C}^{m \times n}\)\(\boldsymbol{b} \in \mathbb{C}^m\),最小范数最小二乘解存在且唯一,等于

\[ \boldsymbol{x}^* = A^\dagger \boldsymbol{b} \]
证明

第一步:最小二乘解集。\(\|A\boldsymbol{x} - \boldsymbol{b}\|\) 最小当且仅当 \(A\boldsymbol{x}\)\(\boldsymbol{b}\)\(\operatorname{col}(A)\) 上的正交投影,即

\[ A\boldsymbol{x} = AA^\dagger \boldsymbol{b} \]

(因为 \(AA^\dagger\) 是到 \(\operatorname{col}(A)\) 的正交投影)。这等价于正规方程 \(A^*A\boldsymbol{x} = A^*\boldsymbol{b}\)

最小二乘解集为 \(\mathcal{L} = \{A^\dagger \boldsymbol{b} + (I - A^\dagger A)\boldsymbol{z} : \boldsymbol{z} \in \mathbb{C}^n\}\)

第二步:最小范数。对 \(\boldsymbol{x} = A^\dagger \boldsymbol{b} + (I - A^\dagger A)\boldsymbol{z} \in \mathcal{L}\)

\[ \|\boldsymbol{x}\|^2 = \|A^\dagger \boldsymbol{b}\|^2 + \|(I - A^\dagger A)\boldsymbol{z}\|^2 + 2\operatorname{Re}\langle A^\dagger \boldsymbol{b}, (I - A^\dagger A)\boldsymbol{z}\rangle \]

注意 \(A^\dagger \boldsymbol{b} \in \operatorname{col}(A^*)\)(因为 \(A^\dagger \boldsymbol{b} = A^\dagger A (A^\dagger \boldsymbol{b})\),即 \(A^\dagger \boldsymbol{b}\)\(\operatorname{col}(A^*)\) 的投影下不变),而 \((I - A^\dagger A)\boldsymbol{z} \in \ker(A)\)。由 \(\operatorname{col}(A^*) \perp \ker(A)\)

\[ \langle A^\dagger \boldsymbol{b}, (I - A^\dagger A)\boldsymbol{z}\rangle = 0 \]

因此 \(\|\boldsymbol{x}\|^2 = \|A^\dagger \boldsymbol{b}\|^2 + \|(I - A^\dagger A)\boldsymbol{z}\|^2 \geq \|A^\dagger \boldsymbol{b}\|^2\)

等号当且仅当 \((I - A^\dagger A)\boldsymbol{z} = \boldsymbol{0}\),即 \(\boldsymbol{z} \in \operatorname{col}(A^*)\)。此时 \(\boldsymbol{x} = A^\dagger \boldsymbol{b}\)\(\blacksquare\)

几何解释:

  • \(AA^\dagger\)\(\boldsymbol{b}\) 投影到 \(\operatorname{col}(A)\),得到 \(\boldsymbol{b}\) 的"最佳逼近"\(\hat{\boldsymbol{b}} = AA^\dagger \boldsymbol{b}\)
  • \(A^\dagger A\) 将解空间投影到 \(\operatorname{col}(A^*)\),在所有最小二乘解中选出范数最小的。
  • 因此 \(\boldsymbol{x}^* = A^\dagger \boldsymbol{b}\) 同时在两个方向上进行了"最优选择"。

例 33.4

\(A = \begin{pmatrix} 1 & 1 \\ 1 & 1 \\ 0 & 0 \end{pmatrix}\)\(\boldsymbol{b} = \begin{pmatrix} 3 \\ 1 \\ 2 \end{pmatrix}\)

\(A^*A = \begin{pmatrix} 2 & 2 \\ 2 & 2 \end{pmatrix}\)\(A^*\boldsymbol{b} = \begin{pmatrix} 4 \\ 4 \end{pmatrix}\)

SVD 计算:\(\sigma_1 = 2\)\(\boldsymbol{u}_1 = \frac{1}{\sqrt{2}}(1, 1, 0)^T\)\(\boldsymbol{v}_1 = \frac{1}{\sqrt{2}}(1, 1)^T\)

\(A^\dagger = \boldsymbol{v}_1 \sigma_1^{-1} \boldsymbol{u}_1^* = \frac{1}{4}\begin{pmatrix} 1 & 1 & 0 \\ 1 & 1 & 0 \end{pmatrix}\)

\(\boldsymbol{x}^* = A^\dagger \boldsymbol{b} = \frac{1}{4}\begin{pmatrix} 4 \\ 4 \end{pmatrix} = \begin{pmatrix} 1 \\ 1 \end{pmatrix}\)

残差:\(A\boldsymbol{x}^* - \boldsymbol{b} = (2, 2, 0)^T - (3, 1, 2)^T = (-1, 1, -2)^T\)\(\|A\boldsymbol{x}^* - \boldsymbol{b}\| = \sqrt{6}\)


33.5 Drazin 逆

核心问题:能否定义一种与矩阵交换的广义逆?

指标与定义

定义 33.4 (指标)

方阵 \(A \in \mathbb{C}^{n \times n}\)指标(index)\(\operatorname{ind}(A) = k\) 定义为使得 \(\operatorname{rank}(A^k) = \operatorname{rank}(A^{k+1})\) 的最小非负整数 \(k\)

等价地,\(\operatorname{ind}(A) = k\) 当且仅当 \(\mathbb{C}^n = \operatorname{col}(A^k) \oplus \ker(A^k)\)

  • \(A\) 可逆,则 \(\operatorname{ind}(A) = 0\)
  • \(A\) 是幂零矩阵且 \(A^k = 0\)\(A^{k-1} \neq 0\),则 \(\operatorname{ind}(A) = k\)
  • 对任何矩阵,\(\operatorname{ind}(A) \leq n\)

定义 33.5 (Drazin 逆)

\(A \in \mathbb{C}^{n \times n}\)\(\operatorname{ind}(A) = k\)\(A\)Drazin 逆 \(A^D\) 是满足以下条件的唯一矩阵:

  1. \(A^{k+1} A^D = A^k\)(或等价地 \(A^{k+1} X = A^k\)
  2. \(A^D A A^D = A^D\)(即 \(XAX = X\)
  3. \(AA^D = A^D A\)\(X\)\(A\) 交换)

定理 33.9 (Drazin 逆的唯一性)

满足上述三个条件的 \(A^D\) 存在且唯一。

证明

唯一性:设 \(X\)\(Y\) 都满足三个条件。由条件 3,\(X\)\(Y\) 都与 \(A\) 交换,因此也与 \(A^k\) 交换。

\(XA^{k+1} = A^k\)(由条件 1),因此 \(XA^{k+1}Y = A^kY\)。但 \(XA^{k+1}Y = X A^k \cdot AY = X A^k Y A = \cdots\)

更直接地:\(X = XAX = X^2A = X^3A^2 = \cdots = X^{k+1}A^k\)。同理 \(Y = Y^{k+1}A^k\)

由条件 1 和 3:\(XA = A^D A = A A^D\),所以 \(XA\) 是幂等矩阵(因为 \((XA)^2 = XAXA = XA \cdot XA\)... 不对,需要更仔细。

利用 \(AX = XA\)\(A^{k+1}X = A^k\)

\[ (AX)^{k+1} = A^{k+1}X^{k+1} = A^k \cdot X^k \]

\((AX)^k = A^k X^k\)。由 \(A^{k+1}X = A^k\),得 \(AX \cdot A^k = A^k\)(在 \(\operatorname{col}(A^k)\)\(AX\) 是恒等映射)。

类似地 \(AY\)\(\operatorname{col}(A^k)\) 上是恒等映射,在 \(\ker(A^k)\) 上是零映射。因此 \(AX = AY\)

\(X = XAX = X(AX) = X(AY) = XAY\)。类似地 \(Y = YAY = Y(AX) = YAX = XAY\)(利用交换性)。因此 \(X = Y\)

存在性:设 \(\operatorname{ind}(A) = k\)\(\mathbb{C}^n = \operatorname{col}(A^k) \oplus \ker(A^k)\)。在这个分解下

\[ A = \begin{pmatrix} A_1 & 0 \\ 0 & N \end{pmatrix} \]

其中 \(A_1 = A|_{\operatorname{col}(A^k)}\) 是可逆的,\(N = A|_{\ker(A^k)}\) 是幂零的(\(N^k = 0\))。定义

\[ A^D = \begin{pmatrix} A_1^{-1} & 0 \\ 0 & 0 \end{pmatrix} \]

验证三个条件是直接的。\(\blacksquare\)

谱刻画

定理 33.10 (Drazin 逆的谱刻画)

\(A\) 的 Jordan 标准形在非零特征值 \(\lambda_1, \ldots, \lambda_s\) 处的 Jordan 块为 \(J_1, \ldots, J_s\),在特征值 \(0\) 处的 Jordan 块(如果存在)为 \(N_1, \ldots, N_t\)。则 \(A^D\) 的 Jordan 标准形在 \(\lambda_i^{-1}\) 处有对应的 Jordan 块 \(J_i^{-1}\),在 \(0\) 处为零块。

\(A^D\) 的非零特征值恰好是 \(A\) 的非零特征值的倒数,而 \(0\) 特征值对应的部分被"消除"。

例 33.5

\(A = \begin{pmatrix} 2 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{pmatrix}\)

\(A^2 = \begin{pmatrix} 4 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix}\)\(\operatorname{rank}(A) = 2\)\(\operatorname{rank}(A^2) = 1\)\(\operatorname{rank}(A^3) = 1\)

因此 \(\operatorname{ind}(A) = 2\)\(\operatorname{col}(A^2) = \operatorname{span}\{(1,0,0)^T\}\)\(\ker(A^2) = \operatorname{span}\{(0,1,0)^T, (0,0,1)^T\}\)

在分解 \(\mathbb{C}^3 = \operatorname{col}(A^2) \oplus \ker(A^2)\) 下,\(A_1 = (2)\)\(N = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}\)

\[ A^D = \begin{pmatrix} 1/2 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix} \]

33.6 群逆与核逆

核心问题:当矩阵的指标为 1 时,Drazin 逆有什么特殊性质?

群逆

定义 33.6 (群逆)

\(A \in \mathbb{C}^{n \times n}\)\(\operatorname{ind}(A) \leq 1\)。此时 \(A\) 的 Drazin 逆称为 \(A\)群逆(group inverse),记作 \(A^\#\)。即 \(A^\#\) 满足:

  1. \(A A^\# A = A\)
  2. \(A^\# A A^\# = A^\#\)
  3. \(A A^\# = A^\# A\)

群逆得名于半群理论:在半群 \(\{A^n : n \geq 0\}\) 中,\(A^\#\)\(A\) 的群论意义上的逆元。

\(\operatorname{ind}(A) \leq 1\) 等价于 \(\operatorname{rank}(A) = \operatorname{rank}(A^2)\),即 \(\operatorname{col}(A)\)\(\operatorname{col}(A^2)\) 相同。

定理 33.11 (群逆与 Moore-Penrose 逆的关系)

\(\operatorname{ind}(A) \leq 1\)。则:

  1. \(A^\#\) 存在当且仅当 \(\operatorname{rank}(A) = \operatorname{rank}(A^2)\)
  2. \(A\) 是正规矩阵(\(AA^* = A^*A\)),则 \(A^\# = A^\dagger\)
  3. 一般地,\(A^\# = A(A^3)^\dagger A = A^\dagger A A^\dagger\)... 不对,后者只对正规矩阵成立。

正确的关系:\(A^\# = A(A^2)^\dagger = (A^2)^\dagger A\)(当 \(\operatorname{ind}(A) \leq 1\) 时,但这需要验证)。

更准确的公式:\(A^\# = (A^2)^\dagger A = A(A^2)^\dagger\)(这些在 \(\operatorname{ind}(A) \leq 1\) 时不一定对,需要额外条件)。

实际上,在一般情况下群逆与 Moore-Penrose 逆没有简单的公式关系。但对 EP 矩阵(\(AA^\dagger = A^\dagger A\)),\(A^\# = A^\dagger\)

核逆

定义 33.7 (核逆)

\(A \in \mathbb{C}^{n \times n}\)\(\operatorname{ind}(A) \leq 1\)\(A\)核逆(core inverse)\(A^{\tiny\textcircled{\#}}\) 定义为满足以下条件的矩阵:

\[ A A^{\tiny\textcircled{\#}} = P_{\operatorname{col}(A)}, \quad \operatorname{col}(A^{\tiny\textcircled{\#}}) \subseteq \operatorname{col}(A) \]

其中 \(P_{\operatorname{col}(A)}\) 是到 \(\operatorname{col}(A)\) 的正交投影。

定理 33.12 (核逆的表示)

\(A^{\tiny\textcircled{\#}} = A^\# A A^\dagger = A^\dagger A A^\#\)(当两者都存在时)。

例 33.6

\(A = \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix}\)

\(\operatorname{rank}(A) = \operatorname{rank}(A^2) = 1\)\(A^2 = A\)),故 \(\operatorname{ind}(A) \leq 1\)

群逆:由 \(AA^\#A = A\)\(A^\#AA^\# = A^\#\)\(AA^\# = A^\#A\),以及 \(A\) 的分解 \(\operatorname{col}(A) = \operatorname{span}\{(1,0)^T\}\)\(\ker(A) = \operatorname{span}\{(-1,1)^T\}\)... 实际上 \(\ker(A) = \operatorname{span}\{(1, -1)^T\}\)... 不对,\(A(x_1, x_2)^T = (x_1+x_2, 0)^T = 0\)\(x_1 = -x_2\)

\(\operatorname{col}(A) = \operatorname{span}\{(1,0)^T\}\)\(\ker(A) = \operatorname{span}\{(-1,1)^T\}\)

在分解 \(\mathbb{C}^2 = \operatorname{col}(A) \oplus \ker(A)\) 下(注意这不是正交分解),\(A_1 = (1)\)(可逆),故 \(A^\# = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\)(在标准基下不对,需要变换基)。

变换矩阵 \(S = \begin{pmatrix} 1 & -1 \\ 0 & 1 \end{pmatrix}\)(列为 \((1,0)^T\)\((-1,1)^T\)),\(S^{-1}AS = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\)

\(A^\# = S \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} S^{-1} = \begin{pmatrix} 1 & -1 \\ 0 & 1 \end{pmatrix}\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix}\)

验证:\(AA^\# = \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix} = A\)... 即 \(AA^\# = A = A^\#\)

\(A^\#A = \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix} = AA^\#\)。✓

注意 \(A^\# = A = \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix}\),这是因为 \(A\) 是幂等的(\(A^2 = A\)),幂等矩阵的群逆就是自身。


33.7 广义逆的扰动与应用

核心问题:Moore-Penrose 逆对矩阵扰动有多敏感?广义逆在实际中有哪些应用?

扰动界

定理 33.13 (Moore-Penrose 逆的扰动界)

\(A, E \in \mathbb{C}^{m \times n}\)\(B = A + E\)。若 \(\operatorname{rank}(A) = \operatorname{rank}(B)\),则

\[ \|B^\dagger - A^\dagger\| \leq \sqrt{2} \max(\|A^\dagger\|^2, \|B^\dagger\|^2) \|E\| \]

若进一步 \(\|A^\dagger\| \|E\| < 1\),则

\[ \|B^\dagger\| \leq \frac{\|A^\dagger\|}{1 - \|A^\dagger\|\|E\|} \]

\(A\) 的最小非零奇异值 \(\sigma_r\) 很小时(即 \(A\) 接近秩亏矩阵),\(\|A^\dagger\| = 1/\sigma_r\) 很大,扰动界也很大。这反映了广义逆的不稳定性,与矩阵条件数的概念密切相关。

秩变化时的不连续性

定理 33.14

映射 \(A \mapsto A^\dagger\) 在秩恒定的矩阵集合上是连续的,但在秩发生变化的地方是不连续的。

例 33.7

\(A_\epsilon = \begin{pmatrix} 1 & 0 \\ 0 & \epsilon \end{pmatrix}\)

  • \(\epsilon \neq 0\)\(A_\epsilon^\dagger = A_\epsilon^{-1} = \begin{pmatrix} 1 & 0 \\ 0 & 1/\epsilon \end{pmatrix}\)
  • \(\epsilon = 0\)\(A_0^\dagger = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\)

\(\lim_{\epsilon \to 0} A_\epsilon^\dagger = \begin{pmatrix} 1 & 0 \\ 0 & +\infty \end{pmatrix} \neq A_0^\dagger\)

因此 \(A \mapsto A^\dagger\)\(A_0\) 处不连续。

应用:奇异线性系统

定理 33.15 (Drazin 逆与奇异微分方程)

考虑奇异线性微分方程

\[ A\boldsymbol{x}'(t) + B\boldsymbol{x}(t) = \boldsymbol{f}(t) \]

其中 \(A\) 可能是奇异的。若 \((A, B)\) 是正则矩阵束(即 \(\det(\lambda A + B) \not\equiv 0\)),则通过变换可以将系统化为

\[ \boldsymbol{x}_1'(t) + C_1 \boldsymbol{x}_1(t) = \boldsymbol{g}_1(t), \quad N\boldsymbol{x}_2'(t) + \boldsymbol{x}_2(t) = \boldsymbol{g}_2(t) \]

其中 \(N\) 是幂零的。第二个方程的解涉及 \(N\) 的 Drazin 逆:

\[ \boldsymbol{x}_2(t) = -\sum_{j=0}^{k-1} N^j \boldsymbol{g}_2^{(j)}(t) \]

其中 \(k = \operatorname{ind}(N)\)

例 33.8

Markov 链的稳态分析

\(P\) 是 Markov 链的转移矩阵(行随机矩阵),\(Q = I - P\)。稳态分布 \(\boldsymbol{\pi}\) 满足 \(\boldsymbol{\pi}^T P = \boldsymbol{\pi}^T\),即 \(\boldsymbol{\pi}^T Q = \boldsymbol{0}^T\)

\(Q\) 的群逆 \(Q^\#\) 可以用来表示 Markov 链的基本矩阵(fundamental matrix)\(Z = (I - P + \Pi)^{-1}\),其中 \(\Pi = \boldsymbol{1}\boldsymbol{\pi}^T\)。实际上:

\[ Z = I - Q^\# \]

(在适当归一化下)。基本矩阵 \(Z\) 包含了 Markov 链的全部二阶信息,包括平均首达时间、方差等。

广义逆理论将逆矩阵的概念从可逆方阵推广到任意矩阵,提供了处理奇异性和非方性的统一框架。Moore-Penrose 逆侧重几何(正交投影、最小范数),Drazin 逆侧重代数(交换性、谱分解)。两者在各自的应用领域中都是不可或缺的工具。

读者应注意广义逆与正则逆的一个根本区别:\((AB)^\dagger \neq B^\dagger A^\dagger\)(一般地)。只有当 \(A\)\(B\) 满足特定的秩条件时,"逆的乘积 = 乘积的逆"才成立。