第 64B 章 矩阵凸函数¶
前置:算子单调函数 (Ch46A) · 矩阵空间中的凸集 (Ch64A) · 矩阵分析 (Ch14)
本章脉络:从标量凸性到算子凸性 \(\to\) 矩阵凸函数 (Matrix Convex Functions) 的定义 \(\to\) Jensen 矩阵不等式 \(\to\) 矩阵凸性与算子单调性的深刻联系 \(\to\) 典型矩阵凸函数:逆函数 \(X^{-1}\)、负对数 \(-\ln X\)、幂函数 \(X^p\) \(\to\) 矩阵迹凸性(Trace Convexity) \(\to\) 应用:统计学中的 Fisher 信息、量子系统中的自由能极小化、半正定规划的算法复杂度估计
延伸:矩阵凸性是优化理论进入矩阵领域的“通行证”;它证明了复杂的矩阵映射依然可以保持能量曲面的向下弯曲性质,是保证大规模科学计算中牛顿法与内点法绝对收敛的底层逻辑
在标量微积分中,凸函数 \(f(\lambda x + (1-\lambda)y) \le \lambda f(x) + (1-\lambda)f(y)\) 是寻找全局最小值的保障。在矩阵世界中,我们关注的是满足 Löwner 偏序 下凸性定义的映射。矩阵凸函数(Matrix Convex Functions)描述了算子如何在混合输入下保持能量或不确定性的凸性增长。本章将介绍如何判定矩阵函数的凸性,并揭示其在信息论与最优设计中的核心作用。
64B.1 定义与 Jensen 矩阵不等式¶
定义 64B.1 (矩阵凸函数)
定义在区间 \(I\) 上的函数 \(f\) 称为 矩阵凸的,如果对于任何特征值在 \(I\) 内的 Hermite 矩阵 \(A, B\): $\(f(\lambda A + (1-\lambda)B) \preceq \lambda f(A) + (1-\lambda)f(B)\)$ 对于所有 \(\lambda \in [0, 1]\) 成立。
定理 64B.1 (Jensen 矩阵不等式)
若 \(f\) 是矩阵凸函数,则对于任何满足 \(\sum V_i^* V_i = I\) 的等距矩阵族: $\(f\left( \sum V_i^* A_i V_i \right) \preceq \sum V_i^* f(A_i) V_i\)$ 这一性质在处理算子加权平均时极具威力。
64B.2 典型矩阵凸函数¶
常用函数列表
- 逆函数:\(f(X) = X^{-1}\) 在 \(X \succ 0\) 上是矩阵凸的。
- 负对数:\(f(X) = -\ln X\) 是矩阵凸的。
- 幂函数:\(f(X) = X^p\),当 \(1 \le p \le 2\) 或 \(-1 \le p \le 0\) 时是矩阵凸的。
64B.3 迹凸性 (Trace Convexity)¶
技术:迹的优势
有时函数本身不是矩阵凸的,但其迹函数 \(\operatorname{tr}(f(X))\) 是凸的。 例如 \(f(X) = X^p\) 对任何 \(p \ge 1\) 都是迹凸的。这在统计物理中用于界定自由能的下限。
练习题¶
1. [基础] 证明 \(f(X) = X^2\) 是矩阵凸函数。
参考答案
证明: 1. 计算 \(f(\lambda A + (1-\lambda)B) = (\lambda A + (1-\lambda)B)^2\)。 2. 展开:\(\lambda^2 A^2 + (1-\lambda)^2 B^2 + \lambda(1-\lambda)(AB + BA)\)。 3. 目标是与 \(\lambda A^2 + (1-\lambda)B^2\) 比较。 4. 考察差值:\(\lambda(1-\lambda)(A^2 + B^2 - AB - BA) = \lambda(1-\lambda)(A-B)^2\)。 5. 由于 \((A-B)^2 \succeq 0\) 且系数 \(\lambda(1-\lambda) \ge 0\)。 结论:差值为正半定,故 \(f(X) = X^2\) 是矩阵凸的。
2. [对比] 为什么 \(f(X) = X^2\) 是矩阵凸的,但不是算子单调的?
参考答案
辨析: - 凸性:反映的是函数图线的“弯曲方向”。平方函数总是向上弯曲的,无论在标量还是矩阵空间。 - 单调性:反映的是函数是否“保序”。在非交换空间中,平方运算会引入交叉项 \(AB+BA\),这可能破坏原有的 \(A-B \ge 0\) 的序关系。 结论:这是矩阵分析中的核心洞察:凸性比单调性在算子空间中更易保持。
3. [计算] 判定 \(f(X) = X^{-1}\) 在正定阵上的凸性。
参考答案
利用 Schur 补: 1. 考虑分块矩阵 \(M = \begin{pmatrix} X & I \\ I & f(X) \end{pmatrix}\)。 2. 若 \(f(X) = X^{-1}\),则 \(M\) 的 Schur 补为 \(X^{-1} - X^{-1} = 0\),处于正定边缘。 3. 利用分块矩阵凸组合的性质,可以证明 \(X^{-1}\) 满足矩阵凸性定义。 结论:求逆是一个高度非线性的矩阵凸操作。
4. [应用] 简述矩阵凸性在 Fisher 信息矩阵中的意义。
参考答案
在统计估计中,参数的 Fisher 信息矩阵 \(I(\theta)\) 是衡量观测数据包含信息量的指标。由于求逆是凸的,克拉美-罗下界(参数方差的下界 \(I^{-1}\))在混合实验下表现出凸性,保证了增加观测样本总是能(在凸性意义下)降低估计误差。
5. [迹凸性] 判定 \(\phi(X) = \operatorname{tr}(X^3)\) 是否为凸函数(针对 \(X \succeq 0\))。
参考答案
结论:是的。 虽然 \(X^3\) 在算子意义下不一定是凸的,但由于迹消除了交叉项的非对称性影响, \(\operatorname{tr}(X^3)\) 在正半轴上表现出完美的标量凸性。
6. [负对数] 证明 \(-\ln X\) 是矩阵凸的。
参考答案
理由: 已知 \(\ln X\) 是算子单调的(见 Ch46A)。 根据算子理论,每一个定义在 \((0, \infty)\) 上的正算子单调函数必是算子凹的。 由于 \(\ln X\) 是凹的,其相反数 \(-\ln X\) 必然是矩阵凸的。
7. [Jensen] 利用 Jensen 矩阵不等式证明:对任何酉阵 \(U\), \(f(U^* A U) = U^* f(A) U\)。
参考答案
证明: 当 \(\sum V_i^* V_i = I\) 简化为单个项 \(U^* U = I\) 时,Jensen 不等式取等号(因为这是基变换)。这证明了矩阵凸性与酉不变性是完全相容的。
8. [稳定性] 在求解线性矩阵不等式(LMI)时,为什么要求目标函数是矩阵凸的?
参考答案
理由: 只有当目标函数是凸的且可行域(由 LMI 定义)是凸集时,局部最优解才是全局最优解。这使得我们可以放心地使用内点法在大规模空间中寻找系统的稳健控制器。
9. [性质] 若 \(f\) 是矩阵凸的, \(f(0) \le 0\),证明 \(f(AXA^*) \preceq A f(X) A^*\) 并不总是成立(除非 \(A\) 是等距阵)。
参考答案
这是对 Jensen 不等式条件的微调。矩阵凸性对“系数”的限制非常严格,必须满足权重的规格化条件。
10. [应用] 什么是矩阵熵(Von Neumann Entropy)的强次可加性?
参考答案
联系: 这是量子信息论中最深刻的不等式之一。它的证明核心就在于函数 \(f(X) = X \ln X\) 的矩阵凸性以及算子单调性的深度结合。它保证了复合量子系统的关联度具有物理上的合理界限。
本章小结¶
矩阵凸函数是算子分析与最优化理论的交汇点:
- 全局最优的保障:它将标量空间的凸性直观提升到算子偏序空间,为处理复杂的矩阵约束优化提供了坚实的理论护航。
- 单调与凸的交织:矩阵凸性不仅是独立的性质,更与算子单调性通过解析延拓定理(Loewner)构成了深刻的代数互补,揭示了正算子映射的深层一致性。
- 信息的测度:从逆算子到对数算子,矩阵凸性为刻画统计信息、物理能量以及量子关联提供了唯一的代数框架,是现代系统科学的基础。