第 33 章 广义逆¶
前置:矩阵运算(Ch2) · 最小二乘(Ch7) · SVD(Ch11)
本章脉络:\(\{1\}\)-逆 → Moore-Penrose 逆(四个 Penrose 条件)→ SVD 表示 → 最小范数最小二乘解 → Drazin 逆 → 群逆 → 加权广义逆 → 扰动分析
延伸:Drazin 逆在奇异微分方程和 Markov 链(稳态分布计算)中不可或缺;广义逆理论推广到 Hilbert 空间中的闭算子(von Neumann 正则逆)和 Banach 代数
对于可逆方阵 \(A\),逆矩阵 \(A^{-1}\) 提供了线性方程组 \(A\boldsymbol{x} = \boldsymbol{b}\) 的唯一解。但当 \(A\) 是奇异矩阵或非方阵时,经典逆不存在。广义逆理论的核心任务是为一般矩阵定义各种"逆",使得它们在特定意义下保留逆矩阵的部分性质。
Moore(1920)和 Penrose(1955)独立定义了最重要的广义逆——Moore-Penrose 逆。Drazin(1958)从代数的观点引入了另一种广义逆。本章系统发展这些理论,揭示它们与 SVD、投影和最小二乘问题的深层联系。
33.1 内逆与 \(\{1\}\)-逆¶
核心问题:对于一般矩阵 \(A\),是否存在矩阵 \(X\) 使得 \(AXA = A\)?这样的 \(X\) 有什么用?
定义¶
定义 33.1 (\(\{1\}\)-逆)
设 \(A \in \mathbb{C}^{m \times n}\)。称 \(X \in \mathbb{C}^{n \times m}\) 为 \(A\) 的 \(\{1\}\)-逆(或内逆、广义逆),若满足
\(A\) 的所有 \(\{1\}\)-逆的集合记作 \(A\{1\}\)。
定理 33.1 (\(\{1\}\)-逆的存在性)
对任何矩阵 \(A \in \mathbb{C}^{m \times n}\),\(A\{1\}\) 非空。即 \(\{1\}\)-逆总是存在的。
证明
设 \(\operatorname{rank}(A) = r\)。则存在可逆矩阵 \(P \in \mathbb{C}^{m \times m}\) 和 \(Q \in \mathbb{C}^{n \times n}\) 使得
这是 \(A\) 的秩分解的推论(通过行列变换化为标准形)。取
其中 \(C, D, E\) 是任意大小适当的矩阵。验证:
因此 \(X \in A\{1\}\)。\(\blacksquare\)
注
\(\{1\}\)-逆一般不唯一。上述证明中 \(C, D, E\) 的任意性说明 \(A\{1\}\) 通常是一个无穷集合。
与相容方程组的关系¶
定理 33.2
线性方程组 \(A\boldsymbol{x} = \boldsymbol{b}\) 有解当且仅当对任何 \(X \in A\{1\}\),\(AX\boldsymbol{b} = \boldsymbol{b}\)。
当方程组有解时,\(\boldsymbol{x}_0 = X\boldsymbol{b}\) 是一个特解,通解为
证明
必要性:设 \(A\boldsymbol{x}_0 = \boldsymbol{b}\),则 \(AX\boldsymbol{b} = AXA\boldsymbol{x}_0 = A\boldsymbol{x}_0 = \boldsymbol{b}\)。
充分性:若 \(AX\boldsymbol{b} = \boldsymbol{b}\),取 \(\boldsymbol{x}_0 = X\boldsymbol{b}\),则 \(A\boldsymbol{x}_0 = AX\boldsymbol{b} = \boldsymbol{b}\)。
通解:\(A(X\boldsymbol{b} + (I-XA)\boldsymbol{z}) = AX\boldsymbol{b} + A\boldsymbol{z} - AXA\boldsymbol{z} = \boldsymbol{b} + A\boldsymbol{z} - A\boldsymbol{z} = \boldsymbol{b}\)。
反方向,若 \(A\boldsymbol{x} = \boldsymbol{b}\),令 \(\boldsymbol{z} = \boldsymbol{x}\),则 \(X\boldsymbol{b} + (I-XA)\boldsymbol{x} = X\boldsymbol{b} + \boldsymbol{x} - XA\boldsymbol{x} = X\boldsymbol{b} + \boldsymbol{x} - X\boldsymbol{b} = \boldsymbol{x}\)。\(\blacksquare\)
例 33.1
设 \(A = \begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix}\)。\(\operatorname{rank}(A) = 1\)。
可以验证 \(X = \begin{pmatrix} 1/5 & 0 \\ 0 & 0 \end{pmatrix}\) 满足 \(AXA = A\):
等等,让我们重新计算。\(AX = \begin{pmatrix} 1/5 & 0 \\ 2/5 & 0 \end{pmatrix}\),\((AX)A = \begin{pmatrix} 1/5 & 2/5 \\ 2/5 & 4/5 \end{pmatrix} \neq A\)。
重新选择。取 \(X = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\):\(AXA = \begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix}\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 2 & 0 \end{pmatrix}\begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix} = \begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix} = A\)。正确。
因此 \(X = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} \in A\{1\}\)。
33.2 Moore-Penrose 逆¶
核心问题:能否在所有广义逆中找到一个"最自然"的?
Penrose 条件¶
定义 33.2 (Penrose 条件)
设 \(A \in \mathbb{C}^{m \times n}\),\(X \in \mathbb{C}^{n \times m}\)。以下四个方程称为 Penrose 条件:
- \(AXA = A\)
- \(XAX = X\)
- \((AX)^* = AX\)(即 \(AX\) 是 Hermite 的)
- \((XA)^* = XA\)(即 \(XA\) 是 Hermite 的)
满足条件 (1) 的 \(X\) 称为 \(A\) 的 \(\{1\}\)-逆。满足所有四个条件的 \(X\) 称为 \(A\) 的 Moore-Penrose 逆,记作 \(A^\dagger\)。
定理 33.3 (Moore-Penrose 逆的唯一性)
对任何 \(A \in \mathbb{C}^{m \times n}\),满足全部四个 Penrose 条件的 \(X\) 存在且唯一。
证明
唯一性:设 \(X\) 和 \(Y\) 都满足四个条件。则
类似地 \(Y = XAY\)。因此 \(X = Y\)。
更简洁的证明:
因此
这变得复杂了。用更直接的方法:
\(XA\) 和 \(YA\) 都是 \(\mathbb{C}^n\) 上的正交投影(Hermite 且幂等),投影到 \(\operatorname{col}(A^*)\) 上。类似地 \(AX\) 和 \(AY\) 都是投影到 \(\operatorname{col}(A)\) 上。因此 \(XA = YA\),\(AX = AY\),故
存在性:通过 SVD 构造,见下一小节。\(\blacksquare\)
SVD 表示¶
定理 33.4 (Moore-Penrose 逆的 SVD 表示)
设 \(A \in \mathbb{C}^{m \times n}\),\(\operatorname{rank}(A) = r\),SVD 为
其中 \(\Sigma_r = \operatorname{diag}(\sigma_1, \ldots, \sigma_r)\),\(\sigma_1 \geq \cdots \geq \sigma_r > 0\)。则
其中 \(\Sigma^\dagger\) 是将 \(\Sigma\) 中每个非零奇异值取倒数、零保持为零后转置得到的矩阵。
证明
令 \(X = V \Sigma^\dagger U^*\),验证四个 Penrose 条件。
设 \(\tilde{\Sigma} = \begin{pmatrix} \Sigma_r & 0 \\ 0 & 0 \end{pmatrix}_{m \times n}\),\(\tilde{\Sigma}^\dagger = \begin{pmatrix} \Sigma_r^{-1} & 0 \\ 0 & 0 \end{pmatrix}_{n \times m}\)。
(1) \(AXA = U\tilde{\Sigma}V^* \cdot V\tilde{\Sigma}^\dagger U^* \cdot U\tilde{\Sigma}V^* = U\tilde{\Sigma}\tilde{\Sigma}^\dagger\tilde{\Sigma}V^*\)。
故 \(AXA = U\tilde{\Sigma}V^* = A\)。✓
(2) 类似地,\(XAX = V\tilde{\Sigma}^\dagger \tilde{\Sigma} \tilde{\Sigma}^\dagger V^* = V\tilde{\Sigma}^\dagger V^* = X\)。✓
(3) \(AX = U\tilde{\Sigma}\tilde{\Sigma}^\dagger U^* = U \begin{pmatrix} I_r & 0 \\ 0 & 0 \end{pmatrix} U^*\)。这是 Hermite 的(\(U\) 酉,中间矩阵实对角)。✓
(4) \(XA = V\tilde{\Sigma}^\dagger\tilde{\Sigma} V^* = V \begin{pmatrix} I_r & 0 \\ 0 & 0 \end{pmatrix} V^*\)。同理是 Hermite 的。✓
因此 \(X = A^\dagger\)。\(\blacksquare\)
例 33.2
设 \(A = \begin{pmatrix} 1 & 0 \\ 0 & 0 \\ 0 & 1 \end{pmatrix}\)。
SVD:\(A = U\Sigma V^*\),其中 \(\Sigma = \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{pmatrix}\),\(U = I_3\),\(V = I_2\)(\(A\) 的列已正交归一)。
验证:\(AA^\dagger = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 1 \end{pmatrix}\)(投影到 \(\operatorname{col}(A)\)),\(A^\dagger A = I_2\)(投影到 \(\operatorname{col}(A^*) = \mathbb{C}^2\))。
33.3 Moore-Penrose 逆的性质与计算¶
核心问题:Moore-Penrose 逆具有哪些代数和分析性质?
基本代数性质¶
定理 33.5 (Moore-Penrose 逆的性质)
设 \(A \in \mathbb{C}^{m \times n}\)。则:
- \((A^\dagger)^\dagger = A\)
- \((A^*)^\dagger = (A^\dagger)^*\)
- \((\alpha A)^\dagger = \alpha^{-1} A^\dagger\)(当 \(\alpha \neq 0\))
- \((A^*A)^\dagger = A^\dagger (A^\dagger)^*\)
- \((AA^*)^\dagger = (A^\dagger)^* A^\dagger\)
- \(A^* = A^*AA^\dagger = A^\dagger AA^*\)
- \(\operatorname{rank}(A^\dagger) = \operatorname{rank}(A)\)
- 若 \(A\) 可逆,则 \(A^\dagger = A^{-1}\)
证明
(1) \(A\) 满足关于 \(A^\dagger\) 的四个条件的"对偶"形式(交换 \(A\) 和 \(A^\dagger\) 的角色并利用 Hermite 条件的对称性):\(A^\dagger A A^\dagger = A^\dagger\),\(A A^\dagger A = A\),\((A^\dagger A)^* = A^\dagger A\),\((A A^\dagger)^* = A A^\dagger\)。因此 \(A\) 是 \(A^\dagger\) 的 Moore-Penrose 逆。
(2) 设 \(X = (A^\dagger)^*\)。验证 \(X\) 满足关于 \(A^*\) 的四个 Penrose 条件: - \(A^*XA^* = A^*(A^\dagger)^*A^* = (A A^\dagger A)^* = A^*\)。✓ - \(XA^*X = (A^\dagger)^*A^*(A^\dagger)^* = (A^\dagger AA^\dagger)^* = (A^\dagger)^* = X\)。✓ - \((A^*X)^* = (A^*(A^\dagger)^*)^* = A^\dagger A = (A^\dagger A)^* = (XA^*)^*\)... 需要仔细检查。 \((A^*X)^* = ((A^\dagger)^* A^*)^{**} = (A (A^\dagger))\)... 实际上 \(A^*X = A^*(A^\dagger)^* = (A^\dagger A)^*= A^\dagger A\),而 \((A^*X)^* = (A^\dagger A)^* = A^\dagger A = A^*X\)。✓ - \((XA^*)^* = ((A^\dagger)^*A^*)^* = A A^\dagger = (AA^\dagger)^* = XA^*\)... \(XA^* = (A^\dagger)^*A^* = (AA^\dagger)^*= AA^\dagger\)。\((XA^*)^* = (AA^\dagger)^* = AA^\dagger = XA^*\)。✓
因此 \((A^\dagger)^* = (A^*)^\dagger\)。
(8) 若 \(A\) 可逆,取 \(X = A^{-1}\):\(AXA = A\),\(XAX = X\),\(AX = I = (AX)^*\),\(XA = I = (XA)^*\)。\(\blacksquare\)
投影性质¶
定理 33.6 (投影解释)
设 \(A \in \mathbb{C}^{m \times n}\),\(\operatorname{rank}(A) = r\)。则:
- \(AA^\dagger\) 是到 \(\operatorname{col}(A)\) 上的正交投影。
- \(A^\dagger A\) 是到 \(\operatorname{col}(A^*) = \operatorname{row}(A)\) 上的正交投影。
- \(I_m - AA^\dagger\) 是到 \(\ker(A^*)\) 上的正交投影。
- \(I_n - A^\dagger A\) 是到 \(\ker(A)\) 上的正交投影。
证明
(1) \(AA^\dagger\) 是 Hermite 的(Penrose 条件 3)且幂等的(\((AA^\dagger)^2 = A(A^\dagger A)A^\dagger = AA^\dagger\),利用条件 1)。因此它是正交投影。
其值域:\(\operatorname{col}(AA^\dagger) \subseteq \operatorname{col}(A)\)。反方向,若 \(\boldsymbol{y} = A\boldsymbol{x}\),则 \(AA^\dagger \boldsymbol{y} = AA^\dagger A\boldsymbol{x} = A\boldsymbol{x} = \boldsymbol{y}\)(条件 1),故 \(\boldsymbol{y} \in \operatorname{col}(AA^\dagger)\)。
(2) 类似证明。\(A^\dagger A\) 是 Hermite 幂等的,值域为 \(\operatorname{col}(A^\dagger A) = \operatorname{col}(A^*) = \operatorname{row}(A)\)。
(3)(4) 由 \(\mathbb{C}^m = \operatorname{col}(A) \oplus \ker(A^*)\) 和 \(\mathbb{C}^n = \operatorname{row}(A) \oplus \ker(A)\) 直接得到。\(\blacksquare\)
极限表示¶
定理 33.7 (极限表示)
设 \(A \in \mathbb{C}^{m \times n}\)。则
这提供了一种正则化计算 \(A^\dagger\) 的方法(Tikhonov 正则化)。
证明
设 \(A = U\Sigma V^*\) 是 SVD,\(\Sigma_r = \operatorname{diag}(\sigma_1, \ldots, \sigma_r)\)。
\(A^*A = V\Sigma^*\Sigma V^* = V \operatorname{diag}(\sigma_1^2, \ldots, \sigma_r^2, 0, \ldots, 0) V^*\)。
\((A^*A + \epsilon I)^{-1} = V \operatorname{diag}\left(\frac{1}{\sigma_1^2 + \epsilon}, \ldots, \frac{1}{\sigma_r^2 + \epsilon}, \frac{1}{\epsilon}, \ldots, \frac{1}{\epsilon}\right) V^*\)。
\((A^*A + \epsilon I)^{-1}A^* = V \operatorname{diag}\left(\frac{1}{\sigma_1^2 + \epsilon}, \ldots, \frac{1}{\sigma_r^2 + \epsilon}, \frac{1}{\epsilon}, \ldots, \frac{1}{\epsilon}\right) V^* V \Sigma^* U^*\)
\(= V \operatorname{diag}\left(\frac{\sigma_1}{\sigma_1^2 + \epsilon}, \ldots, \frac{\sigma_r}{\sigma_r^2 + \epsilon}, 0, \ldots, 0\right)_{\text{适当大小}} U^*\)
当 \(\epsilon \to 0^+\) 时,\(\frac{\sigma_i}{\sigma_i^2 + \epsilon} \to \frac{1}{\sigma_i}\),而零奇异值对应的项保持为 \(0\)。因此极限就是 \(V\Sigma^\dagger U^* = A^\dagger\)。\(\blacksquare\)
例 33.3
设 \(A = \begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}\)。\(\operatorname{rank}(A) = 1\)。
SVD:\(\sigma_1 = 2\),\(\boldsymbol{u}_1 = \frac{1}{\sqrt{2}}(1, 1)^T\),\(\boldsymbol{v}_1 = \frac{1}{\sqrt{2}}(1, 1)^T\)。
验证极限公式:\(A^*A = \begin{pmatrix} 2 & 2 \\ 2 & 2 \end{pmatrix}\),\((A^*A + \epsilon I)^{-1} = \frac{1}{(4+\epsilon)\epsilon - 4}\begin{pmatrix} 2+\epsilon & -2 \\ -2 & 2+\epsilon \end{pmatrix}\)... 实际上利用特征分解更方便。
33.4 最小范数最小二乘解¶
核心问题:对于一般的线性方程组 \(A\boldsymbol{x} = \boldsymbol{b}\)(可能不相容),Moore-Penrose 逆给出什么样的解?
最小二乘问题回顾¶
定义 33.3 (最小范数最小二乘解)
给定 \(A \in \mathbb{C}^{m \times n}\) 和 \(\boldsymbol{b} \in \mathbb{C}^m\),最小二乘问题是
最小二乘解的集合记为 \(\mathcal{L} = \operatorname{argmin} \|A\boldsymbol{x} - \boldsymbol{b}\|\)。在 \(\mathcal{L}\) 中范数最小的解
称为最小范数最小二乘解。
定理 33.8
对任何 \(A \in \mathbb{C}^{m \times n}\) 和 \(\boldsymbol{b} \in \mathbb{C}^m\),最小范数最小二乘解存在且唯一,等于
证明
第一步:最小二乘解集。\(\|A\boldsymbol{x} - \boldsymbol{b}\|\) 最小当且仅当 \(A\boldsymbol{x}\) 是 \(\boldsymbol{b}\) 在 \(\operatorname{col}(A)\) 上的正交投影,即
(因为 \(AA^\dagger\) 是到 \(\operatorname{col}(A)\) 的正交投影)。这等价于正规方程 \(A^*A\boldsymbol{x} = A^*\boldsymbol{b}\)。
最小二乘解集为 \(\mathcal{L} = \{A^\dagger \boldsymbol{b} + (I - A^\dagger A)\boldsymbol{z} : \boldsymbol{z} \in \mathbb{C}^n\}\)。
第二步:最小范数。对 \(\boldsymbol{x} = A^\dagger \boldsymbol{b} + (I - A^\dagger A)\boldsymbol{z} \in \mathcal{L}\):
注意 \(A^\dagger \boldsymbol{b} \in \operatorname{col}(A^*)\)(因为 \(A^\dagger \boldsymbol{b} = A^\dagger A (A^\dagger \boldsymbol{b})\),即 \(A^\dagger \boldsymbol{b}\) 在 \(\operatorname{col}(A^*)\) 的投影下不变),而 \((I - A^\dagger A)\boldsymbol{z} \in \ker(A)\)。由 \(\operatorname{col}(A^*) \perp \ker(A)\):
因此 \(\|\boldsymbol{x}\|^2 = \|A^\dagger \boldsymbol{b}\|^2 + \|(I - A^\dagger A)\boldsymbol{z}\|^2 \geq \|A^\dagger \boldsymbol{b}\|^2\)。
等号当且仅当 \((I - A^\dagger A)\boldsymbol{z} = \boldsymbol{0}\),即 \(\boldsymbol{z} \in \operatorname{col}(A^*)\)。此时 \(\boldsymbol{x} = A^\dagger \boldsymbol{b}\)。\(\blacksquare\)
注
几何解释:
- \(AA^\dagger\) 将 \(\boldsymbol{b}\) 投影到 \(\operatorname{col}(A)\),得到 \(\boldsymbol{b}\) 的"最佳逼近"\(\hat{\boldsymbol{b}} = AA^\dagger \boldsymbol{b}\)。
- \(A^\dagger A\) 将解空间投影到 \(\operatorname{col}(A^*)\),在所有最小二乘解中选出范数最小的。
- 因此 \(\boldsymbol{x}^* = A^\dagger \boldsymbol{b}\) 同时在两个方向上进行了"最优选择"。
例 33.4
设 \(A = \begin{pmatrix} 1 & 1 \\ 1 & 1 \\ 0 & 0 \end{pmatrix}\) 和 \(\boldsymbol{b} = \begin{pmatrix} 3 \\ 1 \\ 2 \end{pmatrix}\)。
\(A^*A = \begin{pmatrix} 2 & 2 \\ 2 & 2 \end{pmatrix}\),\(A^*\boldsymbol{b} = \begin{pmatrix} 4 \\ 4 \end{pmatrix}\)。
SVD 计算:\(\sigma_1 = 2\),\(\boldsymbol{u}_1 = \frac{1}{\sqrt{2}}(1, 1, 0)^T\),\(\boldsymbol{v}_1 = \frac{1}{\sqrt{2}}(1, 1)^T\)。
\(A^\dagger = \boldsymbol{v}_1 \sigma_1^{-1} \boldsymbol{u}_1^* = \frac{1}{4}\begin{pmatrix} 1 & 1 & 0 \\ 1 & 1 & 0 \end{pmatrix}\)。
\(\boldsymbol{x}^* = A^\dagger \boldsymbol{b} = \frac{1}{4}\begin{pmatrix} 4 \\ 4 \end{pmatrix} = \begin{pmatrix} 1 \\ 1 \end{pmatrix}\)。
残差:\(A\boldsymbol{x}^* - \boldsymbol{b} = (2, 2, 0)^T - (3, 1, 2)^T = (-1, 1, -2)^T\),\(\|A\boldsymbol{x}^* - \boldsymbol{b}\| = \sqrt{6}\)。
33.5 Drazin 逆¶
核心问题:能否定义一种与矩阵交换的广义逆?
指标与定义¶
定义 33.4 (指标)
方阵 \(A \in \mathbb{C}^{n \times n}\) 的指标(index)\(\operatorname{ind}(A) = k\) 定义为使得 \(\operatorname{rank}(A^k) = \operatorname{rank}(A^{k+1})\) 的最小非负整数 \(k\)。
等价地,\(\operatorname{ind}(A) = k\) 当且仅当 \(\mathbb{C}^n = \operatorname{col}(A^k) \oplus \ker(A^k)\)。
注
- 若 \(A\) 可逆,则 \(\operatorname{ind}(A) = 0\)。
- 若 \(A\) 是幂零矩阵且 \(A^k = 0\)、\(A^{k-1} \neq 0\),则 \(\operatorname{ind}(A) = k\)。
- 对任何矩阵,\(\operatorname{ind}(A) \leq n\)。
定义 33.5 (Drazin 逆)
设 \(A \in \mathbb{C}^{n \times n}\),\(\operatorname{ind}(A) = k\)。\(A\) 的 Drazin 逆 \(A^D\) 是满足以下条件的唯一矩阵:
- \(A^{k+1} A^D = A^k\)(或等价地 \(A^{k+1} X = A^k\))
- \(A^D A A^D = A^D\)(即 \(XAX = X\))
- \(AA^D = A^D A\)(\(X\) 与 \(A\) 交换)
定理 33.9 (Drazin 逆的唯一性)
满足上述三个条件的 \(A^D\) 存在且唯一。
证明
唯一性:设 \(X\) 和 \(Y\) 都满足三个条件。由条件 3,\(X\) 和 \(Y\) 都与 \(A\) 交换,因此也与 \(A^k\) 交换。
\(XA^{k+1} = A^k\)(由条件 1),因此 \(XA^{k+1}Y = A^kY\)。但 \(XA^{k+1}Y = X A^k \cdot AY = X A^k Y A = \cdots\)
更直接地:\(X = XAX = X^2A = X^3A^2 = \cdots = X^{k+1}A^k\)。同理 \(Y = Y^{k+1}A^k\)。
由条件 1 和 3:\(XA = A^D A = A A^D\),所以 \(XA\) 是幂等矩阵(因为 \((XA)^2 = XAXA = XA \cdot XA\)... 不对,需要更仔细。
利用 \(AX = XA\) 和 \(A^{k+1}X = A^k\):
而 \((AX)^k = A^k X^k\)。由 \(A^{k+1}X = A^k\),得 \(AX \cdot A^k = A^k\)(在 \(\operatorname{col}(A^k)\) 上 \(AX\) 是恒等映射)。
类似地 \(AY\) 在 \(\operatorname{col}(A^k)\) 上是恒等映射,在 \(\ker(A^k)\) 上是零映射。因此 \(AX = AY\)。
\(X = XAX = X(AX) = X(AY) = XAY\)。类似地 \(Y = YAY = Y(AX) = YAX = XAY\)(利用交换性)。因此 \(X = Y\)。
存在性:设 \(\operatorname{ind}(A) = k\),\(\mathbb{C}^n = \operatorname{col}(A^k) \oplus \ker(A^k)\)。在这个分解下
其中 \(A_1 = A|_{\operatorname{col}(A^k)}\) 是可逆的,\(N = A|_{\ker(A^k)}\) 是幂零的(\(N^k = 0\))。定义
验证三个条件是直接的。\(\blacksquare\)
谱刻画¶
定理 33.10 (Drazin 逆的谱刻画)
设 \(A\) 的 Jordan 标准形在非零特征值 \(\lambda_1, \ldots, \lambda_s\) 处的 Jordan 块为 \(J_1, \ldots, J_s\),在特征值 \(0\) 处的 Jordan 块(如果存在)为 \(N_1, \ldots, N_t\)。则 \(A^D\) 的 Jordan 标准形在 \(\lambda_i^{-1}\) 处有对应的 Jordan 块 \(J_i^{-1}\),在 \(0\) 处为零块。
即 \(A^D\) 的非零特征值恰好是 \(A\) 的非零特征值的倒数,而 \(0\) 特征值对应的部分被"消除"。
例 33.5
设 \(A = \begin{pmatrix} 2 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{pmatrix}\)。
\(A^2 = \begin{pmatrix} 4 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix}\),\(\operatorname{rank}(A) = 2\),\(\operatorname{rank}(A^2) = 1\),\(\operatorname{rank}(A^3) = 1\)。
因此 \(\operatorname{ind}(A) = 2\)。\(\operatorname{col}(A^2) = \operatorname{span}\{(1,0,0)^T\}\),\(\ker(A^2) = \operatorname{span}\{(0,1,0)^T, (0,0,1)^T\}\)。
在分解 \(\mathbb{C}^3 = \operatorname{col}(A^2) \oplus \ker(A^2)\) 下,\(A_1 = (2)\),\(N = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}\)。
33.6 群逆与核逆¶
核心问题:当矩阵的指标为 1 时,Drazin 逆有什么特殊性质?
群逆¶
定义 33.6 (群逆)
设 \(A \in \mathbb{C}^{n \times n}\),\(\operatorname{ind}(A) \leq 1\)。此时 \(A\) 的 Drazin 逆称为 \(A\) 的群逆(group inverse),记作 \(A^\#\)。即 \(A^\#\) 满足:
- \(A A^\# A = A\)
- \(A^\# A A^\# = A^\#\)
- \(A A^\# = A^\# A\)
注
群逆得名于半群理论:在半群 \(\{A^n : n \geq 0\}\) 中,\(A^\#\) 是 \(A\) 的群论意义上的逆元。
\(\operatorname{ind}(A) \leq 1\) 等价于 \(\operatorname{rank}(A) = \operatorname{rank}(A^2)\),即 \(\operatorname{col}(A)\) 和 \(\operatorname{col}(A^2)\) 相同。
定理 33.11 (群逆与 Moore-Penrose 逆的关系)
设 \(\operatorname{ind}(A) \leq 1\)。则:
- \(A^\#\) 存在当且仅当 \(\operatorname{rank}(A) = \operatorname{rank}(A^2)\)。
- 若 \(A\) 是正规矩阵(\(AA^* = A^*A\)),则 \(A^\# = A^\dagger\)。
- 一般地,\(A^\# = A(A^3)^\dagger A = A^\dagger A A^\dagger\)... 不对,后者只对正规矩阵成立。
正确的关系:\(A^\# = A(A^2)^\dagger = (A^2)^\dagger A\)(当 \(\operatorname{ind}(A) \leq 1\) 时,但这需要验证)。
更准确的公式:\(A^\# = (A^2)^\dagger A = A(A^2)^\dagger\)(这些在 \(\operatorname{ind}(A) \leq 1\) 时不一定对,需要额外条件)。
实际上,在一般情况下群逆与 Moore-Penrose 逆没有简单的公式关系。但对 EP 矩阵(\(AA^\dagger = A^\dagger A\)),\(A^\# = A^\dagger\)。
核逆¶
定义 33.7 (核逆)
设 \(A \in \mathbb{C}^{n \times n}\),\(\operatorname{ind}(A) \leq 1\)。\(A\) 的核逆(core inverse)\(A^{\tiny\textcircled{\#}}\) 定义为满足以下条件的矩阵:
其中 \(P_{\operatorname{col}(A)}\) 是到 \(\operatorname{col}(A)\) 的正交投影。
定理 33.12 (核逆的表示)
\(A^{\tiny\textcircled{\#}} = A^\# A A^\dagger = A^\dagger A A^\#\)(当两者都存在时)。
例 33.6
设 \(A = \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix}\)。
\(\operatorname{rank}(A) = \operatorname{rank}(A^2) = 1\)(\(A^2 = A\)),故 \(\operatorname{ind}(A) \leq 1\)。
群逆:由 \(AA^\#A = A\),\(A^\#AA^\# = A^\#\),\(AA^\# = A^\#A\),以及 \(A\) 的分解 \(\operatorname{col}(A) = \operatorname{span}\{(1,0)^T\}\),\(\ker(A) = \operatorname{span}\{(-1,1)^T\}\)... 实际上 \(\ker(A) = \operatorname{span}\{(1, -1)^T\}\)... 不对,\(A(x_1, x_2)^T = (x_1+x_2, 0)^T = 0\) 当 \(x_1 = -x_2\)。
\(\operatorname{col}(A) = \operatorname{span}\{(1,0)^T\}\),\(\ker(A) = \operatorname{span}\{(-1,1)^T\}\)。
在分解 \(\mathbb{C}^2 = \operatorname{col}(A) \oplus \ker(A)\) 下(注意这不是正交分解),\(A_1 = (1)\)(可逆),故 \(A^\# = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\)(在标准基下不对,需要变换基)。
变换矩阵 \(S = \begin{pmatrix} 1 & -1 \\ 0 & 1 \end{pmatrix}\)(列为 \((1,0)^T\) 和 \((-1,1)^T\)),\(S^{-1}AS = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\)。
\(A^\# = S \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} S^{-1} = \begin{pmatrix} 1 & -1 \\ 0 & 1 \end{pmatrix}\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix}\)。
验证:\(AA^\# = \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix} = A\)... 即 \(AA^\# = A = A^\#\)。
\(A^\#A = \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix} = AA^\#\)。✓
注意 \(A^\# = A = \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix}\),这是因为 \(A\) 是幂等的(\(A^2 = A\)),幂等矩阵的群逆就是自身。
33.7 广义逆的扰动与应用¶
核心问题:Moore-Penrose 逆对矩阵扰动有多敏感?广义逆在实际中有哪些应用?
扰动界¶
定理 33.13 (Moore-Penrose 逆的扰动界)
设 \(A, E \in \mathbb{C}^{m \times n}\),\(B = A + E\)。若 \(\operatorname{rank}(A) = \operatorname{rank}(B)\),则
若进一步 \(\|A^\dagger\| \|E\| < 1\),则
注
当 \(A\) 的最小非零奇异值 \(\sigma_r\) 很小时(即 \(A\) 接近秩亏矩阵),\(\|A^\dagger\| = 1/\sigma_r\) 很大,扰动界也很大。这反映了广义逆的不稳定性,与矩阵条件数的概念密切相关。
秩变化时的不连续性¶
定理 33.14
映射 \(A \mapsto A^\dagger\) 在秩恒定的矩阵集合上是连续的,但在秩发生变化的地方是不连续的。
例 33.7
设 \(A_\epsilon = \begin{pmatrix} 1 & 0 \\ 0 & \epsilon \end{pmatrix}\)。
- 当 \(\epsilon \neq 0\):\(A_\epsilon^\dagger = A_\epsilon^{-1} = \begin{pmatrix} 1 & 0 \\ 0 & 1/\epsilon \end{pmatrix}\)。
- 当 \(\epsilon = 0\):\(A_0^\dagger = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\)。
\(\lim_{\epsilon \to 0} A_\epsilon^\dagger = \begin{pmatrix} 1 & 0 \\ 0 & +\infty \end{pmatrix} \neq A_0^\dagger\)。
因此 \(A \mapsto A^\dagger\) 在 \(A_0\) 处不连续。
应用:奇异线性系统¶
定理 33.15 (Drazin 逆与奇异微分方程)
考虑奇异线性微分方程
其中 \(A\) 可能是奇异的。若 \((A, B)\) 是正则矩阵束(即 \(\det(\lambda A + B) \not\equiv 0\)),则通过变换可以将系统化为
其中 \(N\) 是幂零的。第二个方程的解涉及 \(N\) 的 Drazin 逆:
其中 \(k = \operatorname{ind}(N)\)。
例 33.8
Markov 链的稳态分析:
设 \(P\) 是 Markov 链的转移矩阵(行随机矩阵),\(Q = I - P\)。稳态分布 \(\boldsymbol{\pi}\) 满足 \(\boldsymbol{\pi}^T P = \boldsymbol{\pi}^T\),即 \(\boldsymbol{\pi}^T Q = \boldsymbol{0}^T\)。
\(Q\) 的群逆 \(Q^\#\) 可以用来表示 Markov 链的基本矩阵(fundamental matrix)\(Z = (I - P + \Pi)^{-1}\),其中 \(\Pi = \boldsymbol{1}\boldsymbol{\pi}^T\)。实际上:
(在适当归一化下)。基本矩阵 \(Z\) 包含了 Markov 链的全部二阶信息,包括平均首达时间、方差等。
注
广义逆理论将逆矩阵的概念从可逆方阵推广到任意矩阵,提供了处理奇异性和非方性的统一框架。Moore-Penrose 逆侧重几何(正交投影、最小范数),Drazin 逆侧重代数(交换性、谱分解)。两者在各自的应用领域中都是不可或缺的工具。
读者应注意广义逆与正则逆的一个根本区别:\((AB)^\dagger \neq B^\dagger A^\dagger\)(一般地)。只有当 \(A\) 和 \(B\) 满足特定的秩条件时,"逆的乘积 = 乘积的逆"才成立。