第 64A 章 矩阵空间中的凸集¶
前置:正定矩阵 (Ch16) · 凸优化基础 (Ch25) · 矩阵范数 (Ch15)
本章脉络:从欧氏凸集到矩阵凸集 \(\to\) 矩阵凸集 (Matrix Convex Sets) 的定义 \(\to\) 核心对象:半正定锥 (PSD Cone) \(\mathcal{S}_n^+\) \(\to\) 矩阵凸组合与完全正映射 \(\to\) 极端点与极端射线 \(\to\) 自共轭锥 (Self-dual Cones) 性质 \(\to\) 凸集的交集与直和 \(\to\) 应用:线性矩阵不等式 (LMI) 的可行域、量子力学中的密度矩阵集合、结构优化
延伸:矩阵空间中的凸集理论是现代半正定规划 (SDP) 的几何基石;它证明了即便是在高维算子空间中,简单的“线性混合”依然能保持集合的连通性与最优性,是理解复杂约束系统稳定性的关键
在线性代数中,我们通常处理的是线性空间(平直的)。但在优化和量子力学中,我们经常研究具有限制条件的矩阵集合,如所有的正定矩阵。矩阵凸集(Matrix Convex Sets)不仅要求集合对普通的线性组合封闭,还要求其对“矩阵系数”的组合保持稳定性。这种深层的几何结构为我们处理复杂的非线性约束提供了凸性的保障。本章将介绍矩阵空间中最重要的凸结构——半正定锥。
64A.1 基础定义¶
定义 64A.1 (矩阵凸集)
矩阵空间 \(M_n\) 中的子集 \(\mathcal{K}\) 称为凸的,如果对于任何 \(A, B \in \mathcal{K}\) 和 \(\lambda \in [0, 1]\): $\(\lambda A + (1-\lambda)B \in \mathcal{K}\)$
定义 64A.2 (半正定锥 \(\mathcal{S}_n^+\))
所有 \(n \times n\) 对称半正定矩阵构成的集合。它是一个闭凸锥,在现代最优化中起着类似于非负象限在传统规划中的作用。
64A.2 极端点与几何结构¶
定理 64A.1 (PSD 锥的极端射线)
半正定锥 \(\mathcal{S}_n^+\) 的极端射线由所有秩为 1 的矩阵 \(\mathbf{vv}^T\) 组成。 物理意义:这意味着任何复杂的正定算子都可以分解为一系列“纯态”投影算子的叠加。
64A.3 自共轭性¶
定理 64A.2 (自共轭性质)
半正定锥是自共轭的(Self-dual),即: \((\mathcal{S}_n^+)^* = \{ Y : \operatorname{tr}(YX) \ge 0, \forall X \in \mathcal{S}_n^+ \} = \mathcal{S}_n^+\) 这一美妙的对称性是 SDP 对偶理论(见 Ch25)成立的根本原因。
练习题¶
1. [基础] 判定单位球 \(\mathcal{B} = \{ X : \|X\|_2 \le 1 \}\) 是否为矩阵空间中的凸集。
参考答案
证明: 1. 取 \(A, B \in \mathcal{B}\),则 \(\|A\|_2 \le 1, \|B\|_2 \le 1\)。 2. 考虑凸组合 \(C = \lambda A + (1-\lambda)B\)。 3. 利用范数的三角不等式:\(\|C\|_2 \le \lambda \|A\|_2 + (1-\lambda) \|B\|_2\)。 4. 代入:\(\|C\|_2 \le \lambda(1) + (1-\lambda)(1) = 1\)。 结论:满足凸性定义,故为凸集。
2. [对角元] 证明:半正定锥中所有迹为 1 的矩阵构成的集合是凸的。
参考答案
证明: 1. 设 \(\operatorname{tr}(A)=1, \operatorname{tr}(B)=1\)。 2. \(\operatorname{tr}(\lambda A + (1-\lambda)B) = \lambda \operatorname{tr}(A) + (1-\lambda) \operatorname{tr}(B)\)(迹的线性)。 3. \(= \lambda(1) + (1-\lambda)(1) = 1\)。 结论:该子集是凸的。在量子力学中,这正是密度矩阵集合。
3. [计算] 判定 \(\begin{pmatrix} x & 1 \\ 1 & y \end{pmatrix} \in \mathcal{S}_2^+\) 定义的 \((x, y)\) 区域是否凸。
参考答案
转换: 1. 该矩阵属于 PSD 锥的条件是:\(x \ge 0, y \ge 0\) 且 \(xy - 1 \ge 0 \implies y \ge 1/x\)。 2. 这是一个双曲线上方的区域。 结论:是的。该区域由线性矩阵不等式(LMI)定义,根据理论,所有 LMI 的可行域必为凸集。
4. [极端点] 判定单位阵 \(I\) 是否是 \(\mathcal{S}_n^+\) 迹为 1 子集的极端点?
参考答案
结论:不是(当 \(n > 1\) 时)。 理由:极端点必须是秩 1 矩阵(纯态)。单位阵的秩为 \(n\),可以写成 \(\sum \frac{1}{n} e_i e_i^T\) 的凸组合。只有秩 1 的投影阵才是该集合的极端点。
5. [包含] 证明两个凸集的交集仍是凸集。
参考答案
证明思路: 若 \(A, B\) 同时在 \(\mathcal{K}_1\) 和 \(\mathcal{K}_2\) 中,由于它们各自是凸的,其凸组合必同时在两个集合中,故在交集中。
6. [自共轭] 为什么自共轭性在优化中如此重要?
参考答案
它允许我们将原始问题的约束(如 \(X \succeq 0\))与对偶问题的变量(如 \(Y \succeq 0\))放在同一个空间和同一个锥内。这大大简化了对偶差距(Duality Gap)的分析和算法的设计。
7. [矩阵凸组合] 什么是矩阵凸组合?它与标量凸组合有何区别?
参考答案
定义:\(\sum V_i^* A_i V_i\),其中 \(\sum V_i^* V_i = I\)。 区别:它允许系数是矩阵(算子)而非仅仅是标量。这是算子代数特有的高级凸性结构。
8. [应用] 简述线性矩阵不等式(LMI)的几何意义。
参考答案
LMI 定义了高维空间被一个半正定锥所切割出来的“截面”。由于锥是凸的,这个截面也必是凸的。这保证了在控制系统中寻找稳定增益的任务是一个良定的凸优化问题。
9. [性质] 证明半正定锥的内部由所有严格正定矩阵 \(A \succ 0\) 组成。
参考答案
证明要点: 严格正定阵的特征值均大于 0。对于足够小的扰动 \(E\),特征值的移动(根据 Weyl 不等式)不足以使其变为 0 或负数。因此 \(A \succ 0\) 周围存在一个完全包含在锥内的邻域。
10. [应用] 在量子信息论中,凸集如何描述噪声信道?
参考答案
量子信道可以视为将一个密度矩阵集合(凸集)映射到另一个集合的完全正映射。由于映射保持凸性,混合态(不确定性)在传输过程中只能保持或增加,这对应了量子熵的演化规律。
本章小结¶
矩阵空间中的凸集是现代分析与优化的几何灵魂:
- 约束的秩序:它证明了看似复杂的矩阵不等式约束其实具有优美的凸性形状,为寻找全局最优解提供了理论通行证。
- 极端与合成:极端射线理论(秩 1 分解)揭示了复杂算子如何由最基本的物理实体合成,确立了系统的原子化分析方法。
- 对称的对偶:自共轭性质构建了原始空间与对偶空间之间完美的镜像关系,支撑了半正定规划这一当代最优化技术的整个架构。