第 13 章 矩阵函数¶
前置:Ch12 Jordan 标准形 · Ch10 谱分解
本章脉络:\(p(A)\)(多项式) → Cayley-Hamilton → 幂级数/收敛 → \(e^A\)(矩阵指数) → \(\log A\), \(A^{1/2}\) → 一般 \(f(A)\)(Jordan/Cauchy 积分)
延伸:矩阵指数 \(e^{tA}\) 是线性 ODE 系统 \(\dot{x} = Ax\) 的解算子,广泛用于控制工程和量子力学;矩阵对数在 Lie 群与 Lie 代数的联系(BCH 公式)中至关重要;矩阵函数理论是算子半群理论的有限维先导
在前面的章节中,我们已经熟悉了矩阵的加法、乘法和求逆等基本运算。本章将把函数的概念从标量推广到矩阵:给定一个函数 \(f\)(如指数函数、对数函数、平方根等),我们希望定义 \(f(A)\) 的含义。矩阵函数(matrix function)在微分方程、控制理论、量子力学等领域有着重要应用。本章从矩阵多项式出发,经由幂级数和 Jordan 标准形,逐步建立矩阵函数的完整理论。
13.1 矩阵多项式¶
\(p(A) = a_k A^k + \cdots + a_0 I\):最基础的矩阵函数 → 保相似性 \(p(PBP^{-1}) = Pp(B)P^{-1}\) → Cayley-Hamilton:\(p_A(A) = 0\)
矩阵多项式是定义矩阵函数的最基础方式,也是理解更一般矩阵函数的起点。
定义 13.1 (矩阵多项式 Matrix Polynomial)
设 \(p(\lambda) = a_k \lambda^k + a_{k-1}\lambda^{k-1} + \cdots + a_1\lambda + a_0\) 为一个标量多项式,\(A\) 为 \(n \times n\) 矩阵。定义矩阵多项式
其中 \(A^0 = I\)(单位矩阵)。
定理 13.1 (矩阵多项式的基本性质)
设 \(p, q\) 为标量多项式,\(A\) 为 \(n \times n\) 矩阵,则:
- \((p + q)(A) = p(A) + q(A)\);
- \((pq)(A) = p(A)q(A)\);
- \(p(A)\) 与 \(q(A)\) 可交换:\(p(A)q(A) = q(A)p(A)\);
- 若 \(A = PBP^{-1}\),则 \(p(A) = Pp(B)P^{-1}\);
- \(p(A)\) 的特征值为 \(p(\lambda_1), \ldots, p(\lambda_n)\),其中 \(\lambda_i\) 为 \(A\) 的特征值。
证明
(1) 和 (2) 由矩阵乘法的分配律和结合律直接得出。
(3) 由 (2),\(p(A)q(A) = (pq)(A) = (qp)(A) = q(A)p(A)\)(利用标量多项式乘法的交换性)。
(4) \(A^k = PB^kP^{-1}\)(数学归纳法易证),因此
(5) 设 \(A\mathbf{v} = \lambda\mathbf{v}\),则 \(A^k\mathbf{v} = \lambda^k\mathbf{v}\),因此 \(p(A)\mathbf{v} = p(\lambda)\mathbf{v}\)。即 \(p(\lambda)\) 为 \(p(A)\) 的特征值。\(\blacksquare\)
洞察:Cayley-Hamilton 意味着 \(A^n\) 可表示为 \(I, A, \ldots, A^{n-1}\) 的线性组合——矩阵代数 \(\mathbb{F}[A]\) 的维数 \(\le n\)
定理 13.2 (Cayley-Hamilton 定理)
设 \(A\) 为 \(n \times n\) 矩阵,\(p_A(\lambda) = \det(\lambda I - A)\) 为其特征多项式,则
即每个矩阵都满足自己的特征方程。
证明
设 \(p_A(\lambda) = \lambda^n + c_{n-1}\lambda^{n-1} + \cdots + c_0\)。
方法一(伴随矩阵法): 设 \(B(\lambda) = \operatorname{adj}(\lambda I - A)\) 为 \(\lambda I - A\) 的伴随矩阵(adjugate),则
\(B(\lambda)\) 的每个元素是 \(\lambda\) 的至多 \((n-1)\) 次多项式,因此可以写为
其中 \(B_i\) 为常数矩阵。将 \((\lambda I - A)B(\lambda) = p_A(\lambda) I\) 展开并比较 \(\lambda\) 的各次幂系数,可得到一组矩阵等式。将第 \(k\) 个等式左乘 \(A^k\) 后全部相加,利用抵消可得 \(p_A(A) = 0\)。\(\blacksquare\)
例 13.1
验证 Cayley-Hamilton 定理对 \(A = \begin{pmatrix}1&2\\3&4\end{pmatrix}\) 成立。
解: 特征多项式:
计算 \(p_A(A) = A^2 - 5A - 2I\):
13.2 矩阵幂级数¶
\(f(A) = \sum c_k A^k\) 收敛 ↔ 谱半径 \(\rho(A) < R\)(收敛半径) → Neumann 级数 \((I-A)^{-1} = \sum A^k\)(\(\rho(A)<1\))
将多项式推广到幂级数,需要引入矩阵级数的收敛性概念。
定义 13.2 (矩阵级数的收敛 Convergence of Matrix Series)
设 \(\{A_k\}\) 为 \(m \times n\) 矩阵序列。称 \(\sum_{k=0}^{\infty} A_k\) 收敛,若每个元素位置的标量级数都收敛,即对所有 \(1 \le i \le m\)、\(1 \le j \le n\),\(\sum_{k=0}^{\infty} [A_k]_{ij}\) 收敛。此时定义
定义 13.3 (谱半径 Spectral Radius)
矩阵 \(A\) 的谱半径(spectral radius)定义为
定理 13.3 (矩阵幂级数的收敛判定)
设 \(f(z) = \sum_{k=0}^{\infty} c_k z^k\) 为收敛半径为 \(R\) 的幂级数,\(A\) 为 \(n \times n\) 矩阵。则矩阵幂级数
收敛的充分条件是 \(\rho(A) < R\)。
证明
设 \(A = PJP^{-1}\),其中 \(J\) 为 Jordan 标准形。则 \(A^k = PJ^kP^{-1}\),故
由于 \(J\) 为分块对角矩阵,\(f(J) = \operatorname{diag}(f(J_{n_1}(\lambda_1)), \ldots)\)。
对 Jordan 块 \(J_m(\lambda)\),\(f(J_m(\lambda))\) 的 \((p,q)\) 元素(\(q \ge p\))为
当 \(|\lambda| < R\) 时,\(f\) 在 \(\lambda\) 处的各阶导数都收敛,因此上式收敛。\(\rho(A) < R\) 保证所有特征值 \(\lambda\) 满足 \(|\lambda| < R\)。\(\blacksquare\)
定理 13.4 (Neumann 级数)
设 \(A\) 为 \(n \times n\) 矩阵。若 \(\rho(A) < 1\),则 \(I - A\) 可逆且
证明
这是 \(f(z) = \frac{1}{1-z} = \sum_{k=0}^{\infty} z^k\)(收敛半径 \(R = 1\))的矩阵版本。
由定理 13.3,当 \(\rho(A) < 1\) 时,\(\sum A^k\) 收敛。设 \(S_N = \sum_{k=0}^N A^k\),则
由 \(\rho(A) < 1\),可证 \(A^{N+1} \to 0\)(逐元素),因此 \((I - A) \lim S_N = I\),即 \((I-A)^{-1} = \sum_{k=0}^{\infty} A^k\)。\(\blacksquare\)
例 13.2
设 \(A = \begin{pmatrix}0.5&0.1\\0&0.3\end{pmatrix}\),计算 \((I-A)^{-1}\)。
解: \(A\) 的特征值为 \(0.5\) 和 \(0.3\),\(\rho(A) = 0.5 < 1\),因此 Neumann 级数收敛。
直接计算:
验证(用 Neumann 级数前几项近似):
13.3 矩阵指数¶
\(e^A = \sum \frac{A^k}{k!}\) 对任意 \(A\) 收敛 → \(\det(e^A) = e^{\operatorname{tr}(A)}\) → 但 \(e^{A+B} = e^Ae^B\) 仅当 \(AB = BA\)
矩阵指数(matrix exponential)是最重要的矩阵函数,在线性微分方程理论中起核心作用。
定义 13.4 (矩阵指数 Matrix Exponential)
对 \(n \times n\) 矩阵 \(A\),矩阵指数定义为
该级数对任意矩阵 \(A\) 都绝对收敛(因为 \(e^z\) 的收敛半径为 \(\infty\))。
定理 13.5 (矩阵指数的基本性质)
设 \(A, B\) 为 \(n \times n\) 矩阵,则:
- \(e^{0} = I\);
- \((e^A)^{-1} = e^{-A}\),即 \(e^A\) 总是可逆的;
- \(e^{(s+t)A} = e^{sA} e^{tA}\),对任意标量 \(s, t\);
- 若 \(AB = BA\),则 \(e^{A+B} = e^A e^B\);
- \(\det(e^A) = e^{\operatorname{tr}(A)}\);
- \(e^{PAP^{-1}} = P e^A P^{-1}\),对任意可逆矩阵 \(P\)。
证明
(1) \(e^0 = I + 0 + 0 + \cdots = I\)。
(2) 由 (4)(取 \(B = -A\),显然 \(A\) 与 \(-A\) 可交换),\(e^A e^{-A} = e^{A+(-A)} = e^0 = I\)。
(3) \(sA\) 与 \(tA\) 可交换,由 (4) 得 \(e^{sA}e^{tA} = e^{sA+tA} = e^{(s+t)A}\)。
(4) 当 \(AB = BA\) 时,可用二项式定理:
因此
(Cauchy 乘积,绝对收敛保证重排合法。)
(5) 设 \(A\) 的 Jordan 标准形为 \(J\),\(A = PJP^{-1}\)。则 \(e^A = Pe^JP^{-1}\),\(\det(e^A) = \det(e^J)\)。\(e^J = \operatorname{diag}(e^{J_{k_i}(\lambda_i)})\),而 \(\det(e^{J_k(\lambda)}) = (e^\lambda)^k = e^{k\lambda}\)。因此 \(\det(e^A) = e^{\sum k_i\lambda_i} = e^{\operatorname{tr}(A)}\)。
(6) \((PAP^{-1})^k = PA^kP^{-1}\),代入级数即得。\(\blacksquare\)
注
注意: 当 \(AB \neq BA\) 时,一般 \(e^{A+B} \neq e^A e^B\)。这是矩阵指数与标量指数的一个重要区别。例如取 \(A = \begin{pmatrix}0&1\\0&0\end{pmatrix}\),\(B = \begin{pmatrix}0&0\\1&0\end{pmatrix}\),可以验证 \(e^{A+B} \neq e^A e^B\)。
例 13.3
计算 \(e^A\),其中 \(A = \begin{pmatrix}0&-\theta\\\theta&0\end{pmatrix}\)。
解: 注意到
一般地,\(A^{2k} = (-1)^k \theta^{2k} I\),\(A^{2k+1} = (-1)^k \theta^{2k} A\)。
这正是旋转矩阵!\(A\) 是反对称矩阵,\(e^A\) 是正交矩阵。
13.4 矩阵指数的计算¶
三条路线:对角化 \(e^A = Pe^{\Lambda}P^{-1}\)
Jordan 形 \(e^{J_k(\lambda)t} = e^{\lambda t}\sum \frac{t^j}{j!}N^j\)
Cayley-Hamilton 法用特征值条件定系数
矩阵指数的计算是应用中的核心问题。本节介绍几种主要方法。
13.4.1 对角矩阵¶
定理 13.6 (对角矩阵的指数)
若 \(A = \operatorname{diag}(\lambda_1, \ldots, \lambda_n)\),则
更一般地,若 \(A = P\operatorname{diag}(\lambda_1, \ldots, \lambda_n)P^{-1}\)(\(A\) 可对角化),则
证明
\(A^k = \operatorname{diag}(\lambda_1^k, \ldots, \lambda_n^k)\),因此
例 13.4
计算 \(e^{At}\),其中 \(A = \begin{pmatrix}1&0\\0&-2\end{pmatrix}\)。
解: \(A\) 是对角矩阵,因此
13.4.2 Jordan 块¶
定理 13.7 (Jordan 块的指数)
对 Jordan 块 \(J_k(\lambda)\),
证明
\(J_k(\lambda)t = \lambda t I + N_k t\),其中 \(\lambda t I\) 和 \(N_k t\) 可交换。因此
而 \(N_k^j\) 是第 \(j\) 条超对角线全为 1 的矩阵,代入即得结论。\(\blacksquare\)
例 13.5
计算 \(e^{At}\),其中 \(A = \begin{pmatrix}3&1&0\\0&3&1\\0&0&3\end{pmatrix} = J_3(3)\)。
解: 由定理 13.7,
13.4.3 Cayley-Hamilton 方法¶
定义 13.5 (Cayley-Hamilton 方法计算矩阵函数)
由 Cayley-Hamilton 定理,\(A^n\) 可以表示为 \(I, A, \ldots, A^{n-1}\) 的线性组合。因此任意矩阵函数 \(f(A)\) 可以表示为
其中系数 \(\alpha_0, \ldots, \alpha_{n-1}\) 由以下条件确定:对 \(A\) 的每个特征值 \(\lambda_i\)(代数重数 \(m_i\)),
即 \(\alpha\) 多项式在 \(\lambda_i\) 处的函数值及导数值与 \(f\) 的一致。
例 13.6
用 Cayley-Hamilton 方法计算 \(e^{At}\),其中 \(A = \begin{pmatrix}2&1\\0&2\end{pmatrix}\)。
解: 特征值 \(\lambda = 2\)(代数重数 2)。\(n = 2\),设
由条件 \(f(\lambda) = e^{\lambda t}\) 在 \(\lambda = 2\) 处匹配到一阶导数:
- \(f(2) = e^{2t}\):\(\alpha_0 + 2\alpha_1 = e^{2t}\);
- \(f'(2) = te^{2t}\):\(\alpha_1 = te^{2t}\)。
解得 \(\alpha_1 = te^{2t}\),\(\alpha_0 = e^{2t} - 2te^{2t}\)。
13.5 矩阵指数与微分方程¶
\(\mathbf{x}' = A\mathbf{x}\) → \(\mathbf{x}(t) = e^{At}\mathbf{x}_0\)(唯一解) → 非齐次用常数变易法 → Jordan 形决定解的渐近行为(\(e^{\lambda t}\) × 多项式)
矩阵指数的最重要应用是求解线性常系数微分方程组。
洞察:唯一性证明的巧妙之处——令 \(\mathbf{z}(t) = e^{-At}\mathbf{y}(t)\),利用 \(\mathbf{z}'=0\) 即得 \(\mathbf{y} = e^{At}\mathbf{x}_0\)
定理 13.8 (齐次线性微分方程组的解)
微分方程组
的唯一解为
证明
存在性: 令 \(\mathbf{x}(t) = e^{At}\mathbf{x}_0\)。则
其中 \(\frac{d}{dt}e^{At} = \sum_{k=1}^{\infty}\frac{kA^k t^{k-1}}{k!} = A\sum_{k=1}^{\infty}\frac{A^{k-1}t^{k-1}}{(k-1)!} = Ae^{At}\)。
且 \(\mathbf{x}(0) = e^{0}\mathbf{x}_0 = \mathbf{x}_0\)。
唯一性: 设 \(\mathbf{y}(t)\) 也是解。令 \(\mathbf{z}(t) = e^{-At}\mathbf{y}(t)\),则
因此 \(\mathbf{z}(t) = \mathbf{z}(0) = \mathbf{x}_0\),即 \(\mathbf{y}(t) = e^{At}\mathbf{x}_0\)。\(\blacksquare\)
定理 13.9 (非齐次线性微分方程组)
微分方程组
的解为(常数变易法 / variation of parameters)
证明
令 \(\mathbf{x}(t) = e^{At}\mathbf{c}(t)\)(常数变易法),代入方程得
化简得 \(e^{At}\mathbf{c}'(t) = \mathbf{f}(t)\),即 \(\mathbf{c}'(t) = e^{-At}\mathbf{f}(t)\)。积分得
因此 \(\mathbf{x}(t) = e^{At}\mathbf{x}_0 + \int_0^t e^{A(t-s)}\mathbf{f}(s)\,ds\)。\(\blacksquare\)
例 13.7
求微分方程组
的解。
解: \(A = \begin{pmatrix}3&1\\-1&1\end{pmatrix}\)。特征值:\(\lambda^2 - 4\lambda + 4 = (\lambda-2)^2 = 0\),\(\lambda = 2\)(重根)。
\(A - 2I = \begin{pmatrix}1&1\\-1&-1\end{pmatrix}\),\(\operatorname{rank} = 1\),几何重数 = 1。
Jordan 形 \(J = J_2(2)\)。特征向量 \(\mathbf{v}_1 = \begin{pmatrix}1\\-1\end{pmatrix}\),广义特征向量 \((A-2I)\mathbf{v}_2 = \mathbf{v}_1\):
\(P = \begin{pmatrix}1&1\\-1&0\end{pmatrix}\),\(P^{-1} = \begin{pmatrix}0&-1\\1&1\end{pmatrix}\)。
13.6 矩阵对数¶
\(e^X = A\) 的逆问题 → 可逆矩阵必有对数 → 对 Jordan 块 \(\log J_k(\lambda) = (\log\lambda)I + \sum \frac{(-1)^{j+1}}{j}(\lambda^{-1}N)^j\)(有限和)
矩阵对数(matrix logarithm)是矩阵指数的逆运算。
定义 13.6 (矩阵对数 Matrix Logarithm)
设 \(A\) 为 \(n \times n\) 可逆矩阵。若存在矩阵 \(X\) 使得 \(e^X = A\),则称 \(X\) 为 \(A\) 的矩阵对数,记为 \(X = \log A\) 或 \(X = \ln A\)。
定理 13.10 (矩阵对数的存在性)
设 \(A\) 为 \(n \times n\) 可逆复数矩阵,则 \(A\) 的矩阵对数存在。即存在矩阵 \(X\) 使得 \(e^X = A\)。
更精确地,若 \(A\) 没有负实数特征值,则存在唯一的矩阵对数 \(X\),使得 \(X\) 的所有特征值的虚部都在 \((-\pi, \pi)\) 内。此 \(X\) 称为 \(A\) 的主对数(principal logarithm)。
证明
存在性(构造性证明):
设 \(A = PJP^{-1}\),\(J = \operatorname{diag}(J_{k_1}(\lambda_1), \ldots, J_{k_s}(\lambda_s))\)。只需对每个 Jordan 块定义对数。
对 \(J_k(\lambda)\)(\(\lambda \neq 0\)),写
其中 \(M = \lambda^{-1}N_k\) 是幂零矩阵。取
级数是有限的(因为 \(M\) 幂零),且 \(e^{\log J_k(\lambda)} = J_k(\lambda)\)。
令 \(\log A = P \operatorname{diag}(\log J_{k_1}(\lambda_1), \ldots) P^{-1}\)。\(\blacksquare\)
例 13.8
求 \(\log A\),其中 \(A = \begin{pmatrix}1&1\\0&1\end{pmatrix} = J_2(1)\)。
解: \(A = I + N\),其中 \(N = \begin{pmatrix}0&1\\0&0\end{pmatrix}\)。
(因为 \(N^2 = 0\),级数只有一项。)
验证:\(e^N = I + N + \frac{N^2}{2!} + \cdots = I + N = A\)。 \(\checkmark\)
13.7 矩阵平方根¶
\(X^2 = A\) → 正定矩阵有唯一正定平方根 \(A^{1/2} = Q\Lambda^{1/2}Q^T\) → 也可通过 \(e^{\frac{1}{2}\log A}\) 定义 → 出现在 Ch10 极分解 \(P = (A^HA)^{1/2}\)
定义 13.7 (矩阵平方根 Matrix Square Root)
设 \(A\) 为 \(n \times n\) 矩阵。若存在矩阵 \(X\) 使得 \(X^2 = A\),则称 \(X\) 为 \(A\) 的矩阵平方根,记为 \(X = A^{1/2}\)。
定理 13.11 (正定矩阵的唯一正定平方根)
设 \(A\) 为 \(n \times n\) 实对称正定矩阵。则存在唯一的实对称正定矩阵 \(B\) 使得 \(B^2 = A\)。\(B\) 称为 \(A\) 的正定平方根。
证明
存在性: \(A\) 是实对称正定矩阵,由谱定理,\(A = Q\Lambda Q^T\),其中 \(Q\) 是正交矩阵,\(\Lambda = \operatorname{diag}(\lambda_1, \ldots, \lambda_n)\),\(\lambda_i > 0\)。
令 \(B = Q\Lambda^{1/2}Q^T\),其中 \(\Lambda^{1/2} = \operatorname{diag}(\sqrt{\lambda_1}, \ldots, \sqrt{\lambda_n})\)。则
\(B\) 是对称的:\(B^T = (Q\Lambda^{1/2}Q^T)^T = Q\Lambda^{1/2}Q^T = B\)。\(B\) 的特征值为 \(\sqrt{\lambda_i} > 0\),因此 \(B\) 正定。
唯一性: 设 \(C\) 也是对称正定矩阵且 \(C^2 = A\)。由 \(C\) 对称正定,设 \(C = R\Gamma R^T\),\(\Gamma = \operatorname{diag}(\gamma_1, \ldots, \gamma_n)\),\(\gamma_i > 0\)。则 \(A = C^2 = R\Gamma^2 R^T\)。
由 \(A\) 的谱分解的唯一性(特征值确定后特征空间确定),\(\Gamma^2 = \Lambda\)(特征值重新排列后)。因为 \(\gamma_i > 0\),\(\gamma_i = \sqrt{\lambda_i}\),故 \(C = B\)。\(\blacksquare\)
定义 13.8 (半正定矩阵的平方根)
对实对称半正定矩阵 \(A\)(特征值 \(\lambda_i \ge 0\)),正定平方根的构造推广为:\(A^{1/2} = Q\operatorname{diag}(\sqrt{\lambda_1}, \ldots, \sqrt{\lambda_n})Q^T\)。此时 \(A^{1/2}\) 是半正定的(唯一的半正定平方根)。
定理 13.12 (可逆矩阵平方根的存在性)
设 \(A\) 为 \(n \times n\) 可逆复数矩阵,且 \(A\) 没有负实数特征值。则 \(A\) 存在唯一的平方根 \(A^{1/2}\),使得 \(A^{1/2}\) 的所有特征值具有正实部。
证明
利用主对数:令 \(A^{1/2} = e^{\frac{1}{2}\log A}\),其中 \(\log A\) 为主对数。则
\(A^{1/2}\) 的特征值为 \(e^{\frac{1}{2}\log\lambda_i}\),其中 \(\log\lambda_i\) 的虚部在 \((-\pi, \pi)\) 内,因此 \(\frac{1}{2}\log\lambda_i\) 的虚部在 \((-\frac{\pi}{2}, \frac{\pi}{2})\) 内,\(e^{\frac{1}{2}\log\lambda_i}\) 的实部为正。唯一性可由此条件推出。\(\blacksquare\)
例 13.9
求 \(A = \begin{pmatrix}2&1\\1&2\end{pmatrix}\) 的正定平方根。
解: 特征值 \(\lambda_1 = 3\),\(\lambda_2 = 1\)。正交特征向量:\(\mathbf{q}_1 = \frac{1}{\sqrt{2}}\begin{pmatrix}1\\1\end{pmatrix}\),\(\mathbf{q}_2 = \frac{1}{\sqrt{2}}\begin{pmatrix}1\\-1\end{pmatrix}\)。
验证:\((A^{1/2})^2 = \frac{1}{4}\begin{pmatrix}\sqrt{3}+1&\sqrt{3}-1\\\sqrt{3}-1&\sqrt{3}+1\end{pmatrix}^2\)。
计算对角元:\(\frac{1}{4}[(\sqrt{3}+1)^2 + (\sqrt{3}-1)^2] = \frac{1}{4}(4+2\sqrt{3}+4-2\sqrt{3}) = \frac{8}{4} = 2\)。
计算非对角元:\(\frac{1}{4}[(\sqrt{3}+1)(\sqrt{3}-1) + (\sqrt{3}-1)(\sqrt{3}+1)] = \frac{1}{4}(2 \times 2) = 1\)。
因此 \((A^{1/2})^2 = \begin{pmatrix}2&1\\1&2\end{pmatrix} = A\)。\(\checkmark\)
13.8 一般矩阵函数¶
统一框架:\(f(J_k(\lambda))\) 的 \((p,q)\) 元素 = \(\frac{f^{(q-p)}(\lambda)}{(q-p)!}\) → Cauchy 积分定义 \(f(A) = \frac{1}{2\pi i}\oint f(z)(zI-A)^{-1}dz\) 与之等价 → 谱映射 \(\sigma(f(A)) = f(\sigma(A))\)
前面几节讨论了特定的矩阵函数(指数、对数、平方根)。本节给出矩阵函数的一般定义框架。
13.8.1 通过 Jordan 标准形定义¶
洞察:\(f(J_k(\lambda))\) 中出现 \(f, f', f'', \ldots, f^{(k-1)}\) ——Jordan 块的大小决定了 \(f\) 需要多少阶可微性
定义 13.9 (一般矩阵函数 — Jordan 形定义)
设 \(f\) 为定义在 \(A\) 的谱上的函数,\(A = PJP^{-1}\),\(J = \operatorname{diag}(J_{k_1}(\lambda_1), \ldots, J_{k_s}(\lambda_s))\)。定义
其中对每个 Jordan 块
要求 \(f\) 在每个特征值 \(\lambda_i\) 处至少 \(k_i - 1\) 次可微。
定理 13.13 (Jordan 形定义的合理性)
定义 13.9 中的 \(f(A)\) 不依赖于 Jordan 分解的选取(即不依赖 \(P\) 的选取),因此 \(f(A)\) 是良定义的。
证明
设 \(A = P_1 J P_1^{-1} = P_2 J P_2^{-1}\)(同一个 Jordan 形 \(J\),但不同的过渡矩阵)。则 \(P_2^{-1}P_1\) 与 \(J\) 可交换,即 \(P_2^{-1}P_1 J = J P_2^{-1}P_1\)。
由于 \(f(J)\) 是 \(J\) 的多项式的极限(当 \(f\) 是解析函数时),\(P_2^{-1}P_1\) 也与 \(f(J)\) 可交换。因此
例 13.10
计算 \(\sin(A)\),其中 \(A = \begin{pmatrix}0&\pi\\0&0\end{pmatrix}\)。
解: \(A = J_2(0)\),\(\lambda = 0\),\(k = 2\)。
\(f(\lambda) = \sin(\lambda)\)。\(f(0) = 0\),\(f'(0) = \cos(0) = 1\)。
注意这不是逐元素的 \(\sin\)!\(\sin\begin{pmatrix}0&\pi\\0&0\end{pmatrix} \neq \begin{pmatrix}\sin 0&\sin\pi\\\sin 0&\sin 0\end{pmatrix}\)。
13.8.2 Cauchy 积分定义¶
定义 13.10 (矩阵函数 — Cauchy 积分定义)
设 \(f\) 在包含 \(A\) 的所有特征值的开集 \(\Omega\) 上解析,\(\Gamma\) 为 \(\Omega\) 中包围所有特征值的简单闭曲线。定义
定理 13.14 (Cauchy 积分定义与 Jordan 形定义的等价性)
当 \(f\) 在 \(A\) 的谱的某个开邻域上解析时,定义 13.9 和定义 13.10 给出的 \(f(A)\) 相同。
证明
设 \(A = PJP^{-1}\),\((zI - A)^{-1} = P(zI - J)^{-1}P^{-1}\)。因此
对 Jordan 块 \(J_k(\lambda)\),\((zI - J_k(\lambda))^{-1}\) 的 \((p,q)\) 元素(\(q \ge p\))为 \(\frac{1}{(z-\lambda)^{q-p+1}}\)。由 Cauchy 积分公式:
这正是定义 13.9 中 \(f(J_k(\lambda))\) 的 \((p,q)\) 元素。\(\blacksquare\)
定理 13.15 (矩阵函数的谱映射定理)
设 \(f\) 为矩阵 \(A\) 的谱上的解析函数,则
即 \(f(A)\) 的特征值恰好是 \(A\) 的特征值经 \(f\) 映射后的值。
证明
设 \(A = PJP^{-1}\),\(f(A) = Pf(J)P^{-1}\)。\(f(J)\) 的对角元素为 \(f(\lambda_i)\)(各 Jordan 块的对角元素),这些正是 \(f(A)\) 的特征值(相似变换保谱)。\(\blacksquare\)
例 13.11
设 \(A\) 的特征值为 \(1, 2, 3\)。求 \(e^A\) 的特征值和 \(\cos(A)\) 的特征值。
解: 由谱映射定理:
- \(e^A\) 的特征值为 \(e^1, e^2, e^3\),即 \(e, e^2, e^3\)。
- \(\cos(A)\) 的特征值为 \(\cos 1, \cos 2, \cos 3\)。
例 13.12
设 \(A = \begin{pmatrix}1&0&0\\0&2&1\\0&0&2\end{pmatrix}\),计算 \(\sqrt{A}\)(取主平方根)。
解: \(A = J_1(1) \oplus J_2(2)\)。\(f(\lambda) = \sqrt{\lambda}\),\(f'(\lambda) = \frac{1}{2\sqrt{\lambda}}\)。
因此
验证:\((\sqrt{A})^2\) 的 \((2,3)\) 元素 = \(\sqrt{2} \cdot \frac{\sqrt{2}}{4} + \frac{\sqrt{2}}{4} \cdot \sqrt{2} = \frac{2}{4} + \frac{2}{4} = 1 = A_{23}\)。\(\checkmark\)
本章小结¶
本章系统介绍了矩阵函数理论,包括:
- 矩阵多项式 \(p(A)\) 是最基础的矩阵函数,Cayley-Hamilton 定理是核心结果;
- 矩阵幂级数的收敛由谱半径 \(\rho(A)\) 控制;
- 矩阵指数 \(e^A\) 对任意矩阵都有定义,满足 \(\det(e^A) = e^{\operatorname{tr}(A)}\),但注意 \(e^{A+B} = e^A e^B\) 仅在 \(AB = BA\) 时成立;
- 矩阵指数与微分方程:\(\mathbf{x}'(t) = A\mathbf{x}(t)\) 的解为 \(\mathbf{x}(t) = e^{At}\mathbf{x}_0\);
- 矩阵对数在可逆矩阵上存在,正定矩阵有唯一的半正定对数;
- 矩阵平方根:正定矩阵有唯一的正定平方根 \(A^{1/2} = Q\Lambda^{1/2}Q^T\);
- 一般矩阵函数可通过 Jordan 标准形或 Cauchy 积分定义,谱映射定理 \(\sigma(f(A)) = f(\sigma(A))\) 是重要性质。
矩阵函数理论将微积分与线性代数深度融合,是现代应用数学的重要工具箱。