跳转至

第 18 章 矩阵不等式

前置:正定矩阵 (Ch16) · 范数 (Ch15) · 奇异值分解 (Ch11) · 特征值 (Ch06)

本章脉络:从标量不等式到算子不等式 \(\to\) 特征值不等式(Weyl 不等式、Cauchy 交错定理) \(\to\) 行列式不等式(Hadamard, Fischer 不等式) \(\to\) 迹不等式(von Neumann, Golden-Thompson) \(\to\) 奇异值不等式(Ky Fan 范数) \(\to\) 优序理论 (Majorization) 及其与矩阵的关系 \(\to\) 应用:信息论(熵的凹性)、物理不确定性关系、最优化中的界限估计

延伸:矩阵不等式是描述系统“界限”的语言;它将精确的相等转化为受限的包容,证明了即便在扰动下,算子的核心能量分布(谱)仍保持极强的几何惯性,是量子信息与现代统计的数学支柱

矩阵不等式是矩阵分析中最精妙的分支。它研究的不是矩阵的具体值,而是矩阵性质(如特征值、迹、行列式)之间的制约关系。正如实数轴上的不等式刻画了量的相对大小,矩阵不等式刻画了算子能量和信息量的相对分布。本章将确立描述矩阵整体性质“大小”的一系列经典准则。


18.1 特征值不等式

定理 18.1 (Weyl 不等式)

\(A, B\)\(n\) 阶 Hermite 矩阵,\(C = A + B\)。设其特征值按降序排列 \(\lambda_1 \ge \lambda_2 \ge \cdots\)。则对任何 \(1 \le j, k \le n\)\(j+k-1 \le n\): $\(\lambda_{j+k-1}(A+B) \le \lambda_j(A) + \lambda_k(B)\)$ 物理意义:这说明扰动对系统能级(特征值)的影响受到扰动强度和原系统谱结构的双重制约。

定理 18.2 (Cauchy 交错定理)

\(B\)\(n\) 阶 Hermite 矩阵 \(A\)\(n-1\) 阶主子阵。则: $\(\lambda_1(A) \ge \lambda_1(B) \ge \lambda_2(A) \ge \lambda_2(B) \ge \cdots \ge \lambda_{n-1}(B) \ge \lambda_n(A)\)$ 几何直观:子空间的压缩导致了谱的“收缩”,子阵的特征值被原阵的特征值严格夹持。


18.2 行列式与迹不等式

定理 18.3 (Hadamard 不等式)

对于任何正定矩阵 \(A \in M_n(\mathbb{C})\): $\(\det(A) \le \prod_{i=1}^n a_{ii}\)$ 等号成立当且仅当 \(A\) 是对角矩阵。 几何意义:平行多面体的体积小于等于其各棱长乘积(只有在正交时取最大体积)。


18.3 优序理论 (Majorization)

定义 18.1 (优序 \(\prec\))

\(x, y \in \mathbb{R}^n\),将其分量降序排列。称 \(y\) 优于 \(x\)(记作 \(x \prec y\)),如果: 1. 对 \(k=1, \ldots, n-1\),有 \(\sum_{i=1}^k x_{[i]} \le \sum_{i=1}^k y_{[i]}\)。 2. 总和相等:\(\sum x_i = \sum y_i\)

定理 18.4 (Schur-Horn 定理)

对于任何 Hermite 矩阵 \(A\),其对角元向量 \(\mathbf{d}\) 被其特征值向量 \(\boldsymbol{\lambda}\) 优序: $\(\mathbf{d} \prec \boldsymbol{\lambda}\)$ 这揭示了矩阵内部元素分布与外部谱表现之间的深层包容关系。


练习题

1. [Weyl] 若 \(\|E\|_2 = 0.1\)\(A\) 的最大特征值为 5。求 \(A+E\) 最大特征值的取值范围。

参考答案

计算: 根据 Weyl 不等式的推论:\(|\lambda_i(A+E) - \lambda_i(A)| \le \|E\|_2\)。 1. \(\lambda_{\max}(A) = 5\)。 2. 最大偏移量为 0.1。 结论\(\lambda_{\max}(A+E)\) 位于区间 \([4.9, 5.1]\) 内。这体现了特征值对扰动的 Lipschitz 连续性。

2. [Hadamard] 计算 \(\begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix}\) 的行列式并验证 Hadamard 不等式。

参考答案

步骤: 1. 计算行列式:\(\det = 2\cdot 2 - 1\cdot 1 = 3\)。 2. 计算对角元乘积:\(a_{11}a_{22} = 2\cdot 2 = 4\)。 3. 检查不等式:\(3 \le 4\)结论:验证成功。由于非对角元不为 0(基向量不正交),体积发生了萎缩。

3. [交错定理] 若 \(3 \times 3\) Hermite 阵的特征值为 \(10, 5, 1\)。其 \(2 \times 2\) 主子阵的最大特征值可能为 12 吗?可能为 0.5 吗?

参考答案

判定: 1. 根据交错定理,子阵特征值 \(\mu_1\) 必须满足 \(\lambda_2(A) \le \mu_1 \le \lambda_1(A)\)。 2. 即 \(5 \le \mu_1 \le 10\)结论:不可能为 12(超过上限),也不可能为 0.5(低于下限)。子空间无法跳出原空间的谱跨度。

4. [迹] 证明对于正定阵 \(A, B\)\(\operatorname{tr}(AB) \ge 0\)

参考答案

证明: 1. 利用迹的性质 \(\operatorname{tr}(AB) = \operatorname{tr}(A^{1/2} A^{1/2} B) = \operatorname{tr}(A^{1/2} B A^{1/2})\)。 2. 令 \(C = A^{1/2} B A^{1/2}\)。由于 \(B \succ 0\)\(C\) 也必为正定阵(合同变换)。 3. 正定阵的对角元必为正(见 Ch16 练习题),故其迹必为正。 结论\(\operatorname{tr}(AB) \ge 0\)。这说明正算子的乘积在平均意义上仍保持正性。

5. [优序] 判定向量 \((1, 1, 1)\)\((3, 0, 0)\) 的优序关系。

参考答案

分析: 1. 总和:\(1+1+1=3\)\(3+0+0=3\)。相等。 2. 前缀和: - \(k=1\)\(1 < 3\)。满足。 - \(k=2\)\(1+1 < 3+0\)。满足。 结论\((1, 1, 1) \prec (3, 0, 0)\)。直观上,均匀分布被极端分布优序。

6. [Fischer] 什么是 Fischer 不等式?它如何推广了 Hadamard 不等式?

参考答案

定义: 对于分块正定阵 \(M = \begin{pmatrix} A & B \\ B^* & C \end{pmatrix}\),有 \(\det(M) \le \det(A)\det(C)\)推广意义:Hadamard 不等式是其块大小为 \(1 \times 1\) 时的特例。它说明将矩阵划分为相互独立的块会增大其广义方差(体积)。

7. [Ky Fan] 什么是 Ky Fan \(k\)-范数?它与优序有什么关系?

参考答案

定义\(\|A\|_{(k)} = \sum_{i=1}^k \sigma_i(A)\)(前 \(k\) 个最大奇异值之和)。 关系:奇异值向量 \(x \prec y\) 等价于对所有 \(k\),其 Ky Fan \(k\)-范数满足 \(\|x\|_{(k)} \le \|y\|_{(k)}\)。这确立了优序在定义算子范数中的核心地位。

8. [算术几何] 证明 \(\det(A)^{1/n} \le \frac{1}{n} \operatorname{tr}(A)\)\(A \succ 0\) 成立。

参考答案

证明: 1. 令 \(\lambda_1, \ldots, \lambda_n\)\(A\) 的特征值。 2. \(\det(A) = \prod \lambda_i\)。 3. \(\operatorname{tr}(A) = \sum \lambda_i\)。 4. 代入经典的算术-几何平均不等式\((\prod \lambda_i)^{1/n} \le \frac{1}{n} \sum \lambda_i\)结论:矩阵的体积被其平均能量严格限制。

9. [凸性] 判定映射 \(A \mapsto \log \det A\) 在正定阵空间上的凹凸性。

参考答案

结论: 该函数是凹函数意义:这对应于信息论中的熵属性。这意味着两个系统的混合(凸组合)所包含的信息量(体积的对数)总是不小于它们各自信息量的加权和。

10. [应用] 矩阵不等式在量子力学中如何体现不确定性原理?

参考答案

解释: 海森堡不确定性原理在代数上表现为两个观察量算符 \(A, B\) 的方差矩阵之积的下界: \(\operatorname{Var}(A)\operatorname{Var}(B) \ge \frac{1}{4} |\langle [A, B] \rangle|^2\)。 这是交换子不等式在内积空间中的直接结果,证明了非交换性导致了测量的互斥边界。

本章小结

矩阵不等式确立了线性系统的“能量边界”:

  1. 谱的稳定性:Weyl 不等式和交错定理证明了矩阵特征值具有极强的几何惯性,微小的结构变动只能引发可控的谱漂移。
  2. 信息的极值:Hadamard 和迹不等式揭示了矩阵在非对角化(耦合)状态下信息的损失规律,为信息论中的熵估计提供了代数上限。
  3. 分布的量化:优序理论提供了一种比较向量“分散程度”的有力工具,揭示了矩阵对角元素与其谱之间深刻的包容关系,是现代压缩感知与统计物理的基石。