Skip to content

第 41 章 矩阵束与 Kronecker 标准形

前置:特征值(Ch6) · Jordan 标准形(Ch12) · \(\lambda\)-矩阵(Ch13B)

本章脉络:矩阵束定义 \(\to\) 正则束与广义特征值 \(\to\) 奇异束 \(\to\) Kronecker 标准形 \(\to\) QZ 算法 \(\to\) 微分代数方程(DAE) \(\to\) Rosenbrock 系统矩阵

延伸:矩阵束理论是微分代数方程(电路模拟中的指标概念)和控制理论(描述子系统)的数学基础;QZ 算法是 LAPACK 中广义特征值问题的标准求解器

标准特征值问题 \(Ax = \lambda x\) 可以视为矩阵束 \(A - \lambda I\) 的研究。当将 \(I\) 替换为一般矩阵 \(B\) 时,就得到了广义特征值问题 \(Ax = \lambda Bx\)矩阵束 \(A - \lambda B\)。当 \(B\) 奇异时,矩阵束可能是奇异的——它没有明确定义的特征多项式,其标准形理论远比 Jordan 标准形复杂。Kronecker 在 1890 年建立的标准形理论完整地分类了所有矩阵束,是矩阵论中最精致也是最困难的结果之一。

本章从矩阵束的基本概念出发,经过正则束的 Weierstrass 标准形和奇异束的 Kronecker 块,到达完整的 Kronecker 标准形。然后讨论数值计算中的 QZ 算法以及在微分代数方程和控制理论中的应用。


41.1 矩阵束的定义

核心问题:什么是矩阵束?正则束与奇异束有何区别?

定义 41.1 (矩阵束)

\(A, B \in M_{m \times n}(\mathbb{C})\)矩阵束(matrix pencil)\(L(\lambda)\) 定义为 $\(L(\lambda) = A - \lambda B,\)$ 其中 \(\lambda \in \mathbb{C}\) 为参数。当 \(m = n\)(方阵情形)时,可以考虑 \(\det(A - \lambda B)\) 作为 \(\lambda\) 的多项式。

定义 41.2 (正则束与奇异束)

\(A, B \in M_n(\mathbb{C})\)(方阵)。矩阵束 \(A - \lambda B\) 称为正则的(regular),若 $\(\det(A - \lambda B) \not\equiv 0\)$ (即 \(\det(A - \lambda B)\) 作为 \(\lambda\) 的多项式不恒等于零)。否则称为奇异的(singular)。

对于长方矩阵束(\(m \ne n\)),束总是奇异的(因为没有方阵行列式)。

例 41.1

(a) \(A = \begin{pmatrix} 1 & 0 \\ 0 & 2 \end{pmatrix}\)\(B = I\)\(\det(A - \lambda I) = (1-\lambda)(2-\lambda)\),这是标准特征值问题,正则束。

(b) \(A = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\)\(B = \begin{pmatrix} 0 & 0 \\ 0 & 1 \end{pmatrix}\)\(\det(A - \lambda B) = \det\begin{pmatrix} 1 & 0 \\ 0 & -\lambda \end{pmatrix} = -\lambda\),正则束。

(c) \(A = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}\)\(B = \begin{pmatrix} 0 & 0 \\ 0 & 0 \end{pmatrix}\)\(\det(A - \lambda B) = 0\) 对所有 \(\lambda\),奇异束。

(d) \(A = \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{pmatrix}\)\(B = \begin{pmatrix} 0 & 1 \\ 0 & 0 \\ 0 & 0 \end{pmatrix}\)\(3 \times 2\) 长方束,奇异。

定义 41.3 (广义特征值)

\(A - \lambda B\)\(n \times n\) 正则束。\(\lambda_0 \in \mathbb{C}\) 称为 \(A - \lambda B\)有限广义特征值,若 \(\det(A - \lambda_0 B) = 0\)。若 \(\det(B) = 0\)\(\det(A - \lambda B) \not\equiv 0\),则称束有无穷广义特征值

更精确地说,可以使用齐次坐标 \((\alpha, \beta)\)\((\alpha_0, \beta_0)\) 为广义特征对,若 \(\det(\beta_0 A - \alpha_0 B) = 0\)。有限特征值对应 \(\beta_0 \ne 0\)\(\lambda = \alpha_0/\beta_0\)),无穷特征值对应 \(\beta_0 = 0\)\(\alpha_0 \ne 0\))。

定义 41.4 (严格等价)

两个 \(m \times n\) 矩阵束 \(A_1 - \lambda B_1\)\(A_2 - \lambda B_2\) 称为严格等价的(strictly equivalent),若存在非奇异矩阵 \(P \in GL_m(\mathbb{C})\)\(Q \in GL_n(\mathbb{C})\),使得 $\(P(A_1 - \lambda B_1)Q = A_2 - \lambda B_2,\)$ 即 \(PA_1 Q = A_2\)\(PB_1 Q = B_2\)


41.2 正则束与广义特征值

核心问题:正则束的标准形是什么?如何处理无穷特征值?

定理 41.1 (Weierstrass 标准形)

\(A - \lambda B\)\(n \times n\) 正则束。则存在非奇异矩阵 \(P, Q \in GL_n(\mathbb{C})\) 使得 $\(P(A - \lambda B)Q = \begin{pmatrix} J - \lambda I_r & 0 \\ 0 & I_s - \lambda N \end{pmatrix},\)$ 其中:

  • \(J \in M_r(\mathbb{C})\) 为 Jordan 标准形,对角块对应有限广义特征值 \(\lambda_1, \ldots, \lambda_p\)
  • \(N \in M_s(\mathbb{C})\)幂零 Jordan 矩阵(所有对角元为 0),对应无穷广义特征值;
  • \(r + s = n\)

此标准形在块的排列顺序外是唯一的。

证明(概要)

步骤一:由 \(A - \lambda B\) 正则,\(\det(A - \lambda B)\) 不恒为零。设 \(d = \deg(\det(A-\lambda B)) = r\),则 \(A - \lambda B\)\(r\) 个有限特征值(计重数)。

步骤二:选取 \(\mu \notin \sigma(A,B)\)(不是广义特征值),则 \(A - \mu B\) 非奇异。令 \(C = (A - \mu B)^{-1}B\)。标准特征值问题 \(Cx = \lambda' x\) 的特征值 \(\lambda'\) 与广义特征值 \(\lambda\) 的关系为 \(\lambda' = 1/(\lambda - \mu)\)(有限特征值)或 \(\lambda' = 0\)\(\lambda = \infty\))。

步骤三\(C\) 的 Jordan 形为 \(C = S \begin{pmatrix} J_f & 0 \\ 0 & N \end{pmatrix} S^{-1}\),其中 \(J_f\) 对应非零特征值(有限广义特征值),\(N\) 为幂零部分(无穷广义特征值)。

步骤四:通过适当选取 \(P, Q\)(利用 \(S\)\((A-\mu B)^{-1}\)),将 \(A - \lambda B\) 化为 Weierstrass 形式。

例 41.2

矩阵束 \(A - \lambda B\)\(A = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{pmatrix}\)\(B = \begin{pmatrix} 0 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}\)

\(\det(A - \lambda B) = \det\begin{pmatrix} 1 & 0 & 0 \\ 0 & -\lambda & 1 \\ 0 & 0 & -\lambda \end{pmatrix} = \lambda^2\)

有限特征值 \(\lambda = 0\)(代数重数 2)。\(\deg(\det) = 2 < n = 3\),故有 1 个无穷特征值。

Weierstrass 形式:\(J = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}\)\(\lambda = 0\)\(2 \times 2\) Jordan 块),\(N = (0)\)\(1 \times 1\) 幂零块)。

\[\text{Weierstrass 形} = \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 1 \end{pmatrix} - \lambda \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{pmatrix}.\]

定理 41.2 (正则束的 Smith 标准形)

正则束 \(A - \lambda B\)Smith 标准形为 $\(\operatorname{diag}(d_1(\lambda), d_2(\lambda), \ldots, d_r(\lambda), 0, \ldots, 0),\)$ 其中 \(d_i(\lambda)\) 为首一多项式,\(d_i | d_{i+1}\)\(r = \operatorname{rank}(A - \lambda B)\)(作为 \(\mathbb{C}(\lambda)\) 上矩阵的秩)。\(d_i\) 称为不变因子


41.3 奇异束与最小指标

核心问题:奇异束的结构如何描述?什么是"最小指标"?

定义 41.5 (列最小指标)

\(L(\lambda) = A - \lambda B\)\(m \times n\) 矩阵束(\(m \le n\)\(m > n\)),束是奇异的。\(L(\lambda)\)右(列)零空间定义为 $\(\mathcal{N}_r(\lambda) = \{x(\lambda) \in \mathbb{C}[\lambda]^n : L(\lambda) x(\lambda) = 0\}.\)$ 即所有使 \(L(\lambda)x(\lambda) = 0\) 的多项式向量 \(x(\lambda)\)

\(\mathcal{N}_r(\lambda)\) 中非零元素的最低次数的向量称为最小基向量。右最小指标 \(\varepsilon_1 \le \varepsilon_2 \le \cdots \le \varepsilon_p\) 是最小基中各基向量的次数。

定义 41.6 (行最小指标)

类似地,\(L(\lambda)\)左(行)零空间为 $\(\mathcal{N}_l(\lambda) = \{y(\lambda)^T \in \mathbb{C}[\lambda]^{1 \times m} : y(\lambda)^T L(\lambda) = 0\}.\)$ 左最小指标 \(\eta_1 \le \eta_2 \le \cdots \le \eta_q\) 是左最小基中各基向量的次数。

例 41.3

\(L(\lambda) = \begin{pmatrix} 1 & -\lambda & 0 \\ 0 & 1 & -\lambda \end{pmatrix}\)\(2 \times 3\) 束)。

右零空间:解 \(L(\lambda)x(\lambda) = 0\)\(x_1 = \lambda x_2\)\(x_2 = \lambda x_3\)。取 \(x_3 = 1\),得 \(x(\lambda) = (\lambda^2, \lambda, 1)^T\)。最低次数为 2,右最小指标 \(\varepsilon_1 = 2\)

左零空间:解 \(y^T L = 0\)\(y_1 = 0\)\(-\lambda y_1 + y_2 = 0\)\(-\lambda y_2 = 0\)。故 \(y = 0\),没有非平凡左零向量。左最小指标为空集(\(q = 0\))。

定理 41.3 (最小指标的维数关系)

\(L(\lambda)\)\(m \times n\) 矩阵束,\(r = \operatorname{rank}(L(\lambda))\)(作为 \(\mathbb{C}(\lambda)\) 上矩阵的秩)。则右最小指标的个数 \(p = n - r\),左最小指标的个数 \(q = m - r\)


41.4 Kronecker 标准形

核心问题:任意矩阵束在严格等价下的完全标准形是什么?

定义 41.7 (Kronecker 块)

定义以下标准块:

(a) 右 Kronecker 块 \(L_\varepsilon\)\(\varepsilon \times (\varepsilon+1)\)): $\(L_\varepsilon = \begin{pmatrix} 1 & -\lambda & & & \\ & 1 & -\lambda & & \\ & & \ddots & \ddots & \\ & & & 1 & -\lambda \end{pmatrix} \in M_{\varepsilon \times (\varepsilon+1)}.\)$ 特别地,\(L_0 = \begin{pmatrix} 1 \end{pmatrix}\)\(0 \times 1\) 没有意义——约定 \(L_0\)\(1 \times 2\) 矩阵 \((1, -\lambda)\))。

修正:\(L_\varepsilon\) 的尺寸为 \(\varepsilon \times (\varepsilon + 1)\)\(\varepsilon \ge 1\)),当 \(\varepsilon = 0\)\(L_0\) 为空块(不出现)。

(b) 左 Kronecker 块 \(L_\eta^T\)\((\eta+1) \times \eta\)):\(L_\eta\) 的转置。

(c) Jordan 块 \(J_k(\lambda_0) - \lambda I_k\):对应有限特征值 \(\lambda_0\)

(d) 无穷 Jordan 块 \(I_k - \lambda N_k\):其中 \(N_k\)\(k \times k\) 幂零 Jordan 块。

定理 41.4 (Kronecker 标准形)

任何 \(m \times n\) 矩阵束 \(A - \lambda B\) 在严格等价下可以化为唯一的(块的顺序除外)标准形: $\(P(A - \lambda B)Q = \operatorname{diag}(L_{\varepsilon_1}, \ldots, L_{\varepsilon_p}, L_{\eta_1}^T, \ldots, L_{\eta_q}^T, J_{k_1}(\lambda_1) - \lambda I, \ldots, J_{k_s}(\lambda_s) - \lambda I, I_{l_1} - \lambda N_{l_1}, \ldots, I_{l_t} - \lambda N_{l_t}),\)$ 其中:

  • \(L_{\varepsilon_i}\):右 Kronecker 块,\(\varepsilon_1 \le \cdots \le \varepsilon_p\)(右最小指标);
  • \(L_{\eta_j}^T\):左 Kronecker 块,\(\eta_1 \le \cdots \le \eta_q\)(左最小指标);
  • \(J_{k_i}(\lambda_i) - \lambda I\):有限特征值的 Jordan 块;
  • \(I_{l_j} - \lambda N_{l_j}\):无穷特征值的 Jordan 块。

矩阵束的完全不变量为:右最小指标 \(\{\varepsilon_i\}\),左最小指标 \(\{\eta_j\}\),有限特征值 Jordan 结构 \(\{(\lambda_i, k_i)\}\),无穷特征值 Jordan 结构 \(\{l_j\}\)

证明(概要)

证明分为几个阶段:

  1. 分离奇异部分和正则部分:通过行列变换,将束化为 $\(\begin{pmatrix} L_{\text{sing}} & 0 \\ 0 & L_{\text{reg}} \end{pmatrix},\)$ 其中 \(L_{\text{reg}}\) 是正则束,\(L_{\text{sing}}\) 是奇异束(\(\det \equiv 0\) 或非方阵)。

  2. 正则部分的 Weierstrass 分解\(L_{\text{reg}}\) 由定理 41.1 化为 Jordan 块和幂零块。

  3. 奇异部分的 Kronecker 分解:关键步骤。利用右最小基和左最小基,将 \(L_{\text{sing}}\) 化为右 Kronecker 块 \(L_\varepsilon\) 和左 Kronecker 块 \(L_\eta^T\) 的直和。

唯一性的证明需要证明所有不变量(最小指标、Jordan 结构)在严格等价下不变。这可以通过分析 \(L(\lambda)\) 的 Smith 形式和最小基的代数性质来完成。

例 41.4

\(L(\lambda) = \begin{pmatrix} 1 & -\lambda & 0 & 0 \\ 0 & 0 & 1 & -\lambda \end{pmatrix}\)\(2 \times 4\) 束)。

这是两个 \(L_1\) 块的直和:\(L_1 = \begin{pmatrix} 1 & -\lambda \end{pmatrix}\)\(1 \times 2\))。

Kronecker 标准形为 \(\operatorname{diag}(L_1, L_1)\)。右最小指标 \(\varepsilon_1 = \varepsilon_2 = 1\),无左最小指标,无有限或无穷特征值。

例 41.5

\(L(\lambda) = \begin{pmatrix} \lambda & 1 & 0 \\ 0 & \lambda & 1 \\ 0 & 0 & 0 \end{pmatrix}\)\(3 \times 3\) 束)。

\(A = \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{pmatrix}\)\(B = \begin{pmatrix} -1 & 0 & 0 \\ 0 & -1 & 0 \\ 0 & 0 & 0 \end{pmatrix}\)

\(\det(A - \lambda B) = \det\begin{pmatrix} \lambda & 1 & 0 \\ 0 & \lambda & 1 \\ 0 & 0 & 0 \end{pmatrix} = 0\)。奇异束。

右零空间:\(\lambda x_1 + x_2 = 0\)\(\lambda x_2 + x_3 = 0\)。取 \(x_1 = 1\)\(x_2 = -\lambda\)\(x_3 = \lambda^2\)。最小基为 \((\lambda^2, -\lambda, 1)^T\),但需要检查是否有更低次的解。\(x_3\) 任意,\(x_2 = -\lambda x_3\)\(x_1 = -x_2/\lambda = x_3\)(仅当 \(x_2/\lambda\) 为多项式时)。取 \(x_3 = 1\)\(x_2 = -\lambda\)\(x_1 = \lambda^2\) 无误——但这是次数 2 的向量。

左零空间:\(y^T L = 0\)\(\lambda y_1 = 0\)\(y_1 + \lambda y_2 = 0\)\(y_2 = 0\)。故 \(y_1 = y_2 = 0\)\(y_3\) 任意。左最小指标 \(\eta_1 = 0\)

Kronecker 标准形包含一个 \(L_2\) 块(右最小指标 2)和一个 \(L_0^T\) 块(左最小指标 0,即 \(1 \times 0\) 的空块——实际上 \(L_0^T\) 表示一行额外的方程 \(0 = 0\))。


41.5 广义 Schur 分解与 QZ 算法

核心问题:如何用数值稳定的算法计算正则束的广义特征值?

定理 41.5 (广义 Schur 分解)

\(A, B \in M_n(\mathbb{C})\)。则存在酉矩阵 \(Q, Z \in M_n(\mathbb{C})\) 使得 $\(QAZ = T_A, \quad QBZ = T_B,\)$ 其中 \(T_A, T_B\) 均为上三角矩阵。广义特征值为 \(\lambda_i = (T_A)_{ii} / (T_B)_{ii}\)(当 \((T_B)_{ii} \ne 0\))或 \(\infty\)(当 \((T_B)_{ii} = 0\))。

证明

存在性可以通过同时 Schur 三角化来证明。取 \(\mu\) 使得 \(A - \mu B\) 非奇异,令 \(C = (A - \mu B)^{-1}B\)。对 \(C\) 做 Schur 分解 \(C = U T_C U^*\)。然后取 \(Q = U^*\)\(Z = U\),将 \(A\)\(B\) 同时变为上三角形式。

更直接地,使用 QZ 迭代算法(见下文)。

定义 41.8 (QZ 算法)

QZ 算法是 Moler 和 Stewart 在 1973 年提出的计算正则束广义特征值的数值算法。其基本流程为:

阶段一(预处理): 1. 利用 Householder 变换将 \(B\) 化为上 Hessenberg 形式,同时对 \(A\) 做相应变换。 2. 进一步将 \(A\) 化为上 Hessenberg 形式(同时保持 \(B\) 的上三角性——通过 Givens 旋转)。

阶段二(迭代): QZ 迭代是 QR 迭代的推广。每步选取位移 \(\mu\),计算 $\(QR = A - \mu B \quad \text{(QR 分解)},\)$ 然后更新 \(A \leftarrow R Q + \mu B Q\)(等价操作),\(B\) 也做相应更新以保持上三角。

收敛后,\(A\)\(B\) 同时为上三角,对角元之比给出广义特征值。

定理 41.6 (QZ 算法的复杂度与稳定性)

QZ 算法的主要性质:

(a) 预处理阶段:\(O(n^3)\) 次运算。

(b) 迭代阶段:每步 \(O(n^2)\) 次运算,通常收敛很快(\(O(n)\) 步迭代)。

(c) 总复杂度:\(O(n^3)\)

(d) QZ 算法是数值后向稳定的:计算出的广义特征值是略微扰动后的束 \((A + \delta A) - \lambda(B + \delta B)\) 的精确广义特征值,其中 \(\|\delta A\|, \|\delta B\| = O(\epsilon_{\text{mach}} \|A\|)\)

例 41.6

计算束 \(A - \lambda B\) 的广义特征值,\(A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}\)\(B = \begin{pmatrix} 5 & 6 \\ 7 & 8 \end{pmatrix}\)

\(\det(A - \lambda B) = (1-5\lambda)(4-8\lambda) - (2-6\lambda)(3-7\lambda)\) \(= 4 - 8\lambda - 20\lambda + 40\lambda^2 - (6 - 14\lambda - 18\lambda + 42\lambda^2)\) \(= 4 - 28\lambda + 40\lambda^2 - 6 + 32\lambda - 42\lambda^2\) \(= -2\lambda^2 + 4\lambda - 2 = -2(\lambda^2 - 2\lambda + 1) = -2(\lambda - 1)^2\).

广义特征值为 \(\lambda = 1\)(重数 2)。

注记 41.1 (QZ 算法的实现)

QZ 算法在 LAPACK 中由子程序 xGGES(Schur 形式)和 xGGEV(特征值和特征向量)实现。在 MATLAB 中,函数 eig(A, B) 调用 QZ 算法。该算法是工程计算中求解广义特征值问题的标准工具。


41.6 微分代数方程

核心问题:矩阵束理论如何应用于微分代数方程(DAE)的分析?

定义 41.9 (线性常系数 DAE)

微分代数方程(Differential-Algebraic Equation, DAE)是形如 $\(E\dot{x}(t) = Ax(t) + f(t) \tag{41.1}\)$ 的方程,其中 \(E, A \in M_n(\mathbb{R})\)\(E\) 可能是奇异的。当 \(E\) 非奇异时,(41.1) 化为标准 ODE \(\dot{x} = E^{-1}Ax + E^{-1}f\)。当 \(E\) 奇异时,(41.1) 包含微分方程和代数约束的混合。

定义 41.10 (DAE 的指标)

线性常系数 DAE (41.1) 的(Kronecker)指标定义为矩阵束 \(E - \lambda A\)(注意顺序!常写为 \(\lambda E - A\)\(sE - A\))的 Weierstrass 标准形中幂零块 \(N\) 的幂零指标(即 \(N\) 的最大 Jordan 块大小)。

  • 指标 0:\(E\) 非奇异(纯 ODE)。
  • 指标 1:\(N\) 为对角矩阵(即所有幂零 Jordan 块大小为 1)。
  • 指标 \(\nu\)\(N\) 的最大 Jordan 块大小为 \(\nu\)

定理 41.7 (DAE 的可解性)

考虑 DAE \(E\dot{x} = Ax + f\),矩阵束 \(sE - A\) 正则。设 Weierstrass 标准形为 $\(P(sE - A)Q = \begin{pmatrix} sI - J & 0 \\ 0 & sN - I \end{pmatrix}.\)$ 令 \(Qx = \begin{pmatrix} y \\ z \end{pmatrix}\)\(P^{-1}f = \begin{pmatrix} g \\ h \end{pmatrix}\)。则 DAE 等价于

\[\dot{y} = Jy + g(t) \tag{ODE 部分}$$ $$N\dot{z} = z + h(t) \tag{代数部分}\]

代数部分的解为 $\(z(t) = -\sum_{k=0}^{\nu-1} N^k h^{(k)}(t),\)$ 其中 \(\nu\)\(N\) 的幂零指标,\(h^{(k)}\)\(h\)\(k\) 阶导数。

因此 DAE 的可解性要求 \(f\)(从而 \(h\))至少 \(\nu - 1\) 次可微。指标越高,对数据的光滑性要求越高。

证明

ODE 部分 \(\dot{y} = Jy + g\) 的解由标准 ODE 理论给出。

代数部分 \(N\dot{z} = z + h\),即 \(z = N\dot{z} - h = N(N\ddot{z} - \dot{h}) - h = N^2\ddot{z} - N\dot{h} - h\)。迭代 \(\nu\) 次(\(N^\nu = 0\)),得 $\(z = -h - N\dot{h} - N^2\ddot{h} - \cdots - N^{\nu-1}h^{(\nu-1)}.\)$

例 41.7

电路方程(RC 电路):\(C\dot{v} = -Gv + Bu\),其中 \(C\) 为电容矩阵(可能奇异——当电路包含纯电阻支路时),\(G\) 为电导矩阵,\(v\) 为节点电压。

\(C\) 奇异,这就是一个 DAE。例如 $\(\begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\begin{pmatrix} \dot{v}_1 \\ \dot{v}_2 \end{pmatrix} = \begin{pmatrix} -1 & 1 \\ 1 & -1 \end{pmatrix}\begin{pmatrix} v_1 \\ v_2 \end{pmatrix} + \begin{pmatrix} u(t) \\ 0 \end{pmatrix}.\)$

\(E = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}\)\(A = \begin{pmatrix} -1 & 1 \\ 1 & -1 \end{pmatrix}\)

第二个方程 \(0 = v_1 - v_2\) 是代数约束(\(v_1 = v_2\))。代入第一个方程 \(\dot{v}_1 = -v_1 + v_1 + u = u\),即 \(\dot{v}_1 = u\)

矩阵束 \(sE - A = \begin{pmatrix} s+1 & -1 \\ -1 & 1 \end{pmatrix}\)\(\det = s + 1 - 1 = s\)。有限特征值 \(s = 0\),无穷特征值(因为 \(\deg(\det) = 1 < n = 2\),有 1 个无穷特征值)。指标 1。

注记 41.2 (指标与数值困难)

DAE 的指标直接影响数值方法的选择和难度:

  • 指标 1 的 DAE 可以用隐式方法(如 BDF)直接求解,与标准 ODE 类似。
  • 指标 2 的 DAE 需要特殊处理(如指标归约或投影方法)。
  • 指标 3 或更高的 DAE 在数值上极具挑战性,容易出现漂移(drift off constraint)现象。

电路模拟软件 SPICE 中的方程通常具有指标 1 或 2。多体动力学方程(如机器人或车辆动力学)通常具有指标 3。


41.7 应用

核心问题:矩阵束理论在控制理论和工程中有哪些重要应用?

定义 41.11 (描述子系统)

描述子系统(descriptor system)是形如 $\(E\dot{x}(t) = Ax(t) + Bu(t), \quad y(t) = Cx(t) + Du(t)\)$ 的线性系统,其中 \(E\) 可能奇异。当 \(E\) 非奇异时退化为标准状态空间描述。描述子系统的传递函数为 $\(G(s) = C(sE - A)^{-1}B + D.\)$

定理 41.8 (描述子系统的正则性)

描述子系统 \((E, A, B, C, D)\) 有唯一解当且仅当矩阵束 \(sE - A\)正则的。此时传递函数 \(G(s)\) 是有理的(rational proper + polynomial part)。

定理 41.9 (多项式特征值问题的线性化)

\(m\) 次多项式特征值问题 $\(P(\lambda)x = (\lambda^m A_m + \lambda^{m-1}A_{m-1} + \cdots + A_0)x = 0\)$ 可以通过伴随线性化(companion linearization)转化为线性矩阵束问题: $\(\begin{pmatrix} A_m & & \\ & I & \\ & & \ddots & \\ & & & I \end{pmatrix}\lambda - \begin{pmatrix} -A_{m-1} & -A_{m-2} & \cdots & -A_0 \\ I & 0 & \cdots & 0 \\ & \ddots & & \vdots \\ & & I & 0 \end{pmatrix}.\)$

这将 \(n \times n\)\(m\) 次问题转化为 \(mn \times mn\) 的线性束问题,然后可用 QZ 算法求解。

例 41.8

二次特征值问题(在结构振动分析中常见): $\((\lambda^2 M + \lambda C + K)x = 0,\)$ 其中 \(M\) 为质量矩阵,\(C\) 为阻尼矩阵,\(K\) 为刚度矩阵。

标准线性化为 $\(\begin{pmatrix} M & 0 \\ 0 & I \end{pmatrix}\lambda\begin{pmatrix} v \\ \lambda v \end{pmatrix} = \begin{pmatrix} -C & -K \\ I & 0 \end{pmatrix}\begin{pmatrix} v \\ \lambda v \end{pmatrix},\)$ 即 \(\lambda B \tilde{x} = A \tilde{x}\) 的形式,\(2n \times 2n\) 的广义特征值问题。

注记 41.3 (Rosenbrock 系统矩阵)

在控制理论中,Rosenbrock 系统矩阵定义为 $\(S(s) = \begin{pmatrix} sE - A & -B \\ C & D \end{pmatrix}.\)$ \(S(s)\) 是一个矩阵束(或矩阵多项式),其 Smith 标准形包含了系统的零点和极点信息。系统的传输零点(transmission zeros)是 \(S(s)\) 的不变零点(使 \(S(s)\) 的秩下降的 \(s\) 值)。

注记 41.4 (结构化矩阵束)

许多应用中的矩阵束具有特殊结构:

  • 对称束 \(A - \lambda B\)\(A, B\) 对称):出现在振动分析中。可用对称 QZ 变体保持对称性。
  • Hermite 束\(A, B\) Hermite,\(B\) 半正定):特征值全为实数。
  • 回文束 \(A - \lambda A^T\):出现在控制理论的最优控制问题中。
  • Hamilton 束:出现在 Riccati 方程的求解中。

定理 41.10 (对称正定束的性质)

\(A - \lambda B\) 为对称束,\(B\) 正定。则:

(a) 所有广义特征值 \(\lambda_i\) 为实数。

(b) 广义特征向量可选为 \(B\)-正交的:\(v_i^T B v_j = \delta_{ij}\)

(c) 存在非奇异矩阵 \(S\) 使得 \(S^T A S = \Lambda = \operatorname{diag}(\lambda_1, \ldots, \lambda_n)\)\(S^T B S = I\)

证明

\(B > 0\),令 \(B = LL^T\)(Cholesky 分解),将广义问题 \(Ax = \lambda Bx\) 化为标准对称特征值问题 \(L^{-1}AL^{-T}y = \lambda y\)\(y = L^T x\))。\(L^{-1}AL^{-T}\) 对称,故特征值全为实数。将标准特征向量 \(\{y_i\}\) 变回 \(\{x_i = L^{-T}y_i\}\),即得 \(B\)-正交的广义特征向量。

例 41.9

广义特征值问题 \(Ax = \lambda Bx\), $\(A = \begin{pmatrix} 5 & 2 \\ 2 & 2 \end{pmatrix}, \quad B = \begin{pmatrix} 2 & 1 \\ 1 & 1 \end{pmatrix}.\)$

\(\det(A - \lambda B) = (5-2\lambda)(2-\lambda) - (2-\lambda)^2 = (2-\lambda)(5-2\lambda - 2+\lambda) = (2-\lambda)(3-\lambda)\)

广义特征值 \(\lambda_1 = 2, \lambda_2 = 3\),均为实数(\(B\) 正定)。

\(\lambda_1 = 2\)\((A-2B)x = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}x = 0\)\(x_1 = \begin{pmatrix} 0 \\ 1 \end{pmatrix}\)\(\lambda_2 = 3\)\((A-3B)x = \begin{pmatrix} -1 & -1 \\ -1 & -1 \end{pmatrix}x = 0\)\(x_2 = \begin{pmatrix} 1 \\ -1 \end{pmatrix}\)

验证 \(B\)-正交:\(x_1^T B x_2 = (0, 1)\begin{pmatrix} 2 & 1 \\ 1 & 1 \end{pmatrix}\begin{pmatrix} 1 \\ -1 \end{pmatrix} = (0,1)(1, 0)^T = 0\)。正交性成立。

注记 41.5 (矩阵束的扰动理论)

矩阵束的特征值对扰动的敏感性比标准特征值问题更为复杂。对正则束 \(A - \lambda B\),若 \(\lambda_0\) 为简单广义特征值,左右广义特征向量为 \(y, x\)\(Ax = \lambda_0 Bx\)\(y^*A = \lambda_0 y^*B\)),则 $\(\lambda_0 \text{ 的条件数} = \frac{\|y\| \|x\|}{|y^* B x|}.\)$ 当 \(y^* Bx \approx 0\) 时,广义特征值对扰动非常敏感。特别地,当 \(B\) 接近奇异时,某些广义特征值可能变得极度病态。

对奇异束,Kronecker 标准形本身在一般扰动下是不稳定的(最小指标可以改变),这使得奇异束的数值计算需要特别小心。Van Dooren 等人发展了用 SVD 等方法数值稳定地提取 Kronecker 结构的算法。


本章小结

概念 要点
矩阵束 \(A - \lambda B\) 方阵:正则(\(\det \not\equiv 0\))或奇异
Weierstrass 形 正则束 = Jordan 块(有限特征值)+ 幂零块(无穷特征值)
最小指标 奇异束的核心不变量,描述多项式零空间的结构
Kronecker 标准形 \(L_\varepsilon\)(右块)+ \(L_\eta^T\)(左块)+ Jordan + 幂零:完全分类
QZ 算法 \(O(n^3)\),后向稳定,LAPACK 标准实现
DAE \(E\dot{x} = Ax\);指标 = 幂零块大小;指标越高越难求解
描述子系统 控制理论中正则束的应用

Kronecker 标准形是矩阵束理论的顶峰,它将正则束的 Weierstrass 理论和奇异束的最小指标理论统一在一个完整的框架中。从数值计算(QZ 算法)到微分代数方程(指标理论)再到控制理论(描述子系统),矩阵束的语言提供了分析线性系统结构的强大工具。