跳转至

第 16 章 正定矩阵

前置:二次型 (Ch09) · 矩阵分解 (Ch10) · 特征值 (Ch06)

本章脉络:正定 (PD) 与半正定 (PSD) 矩阵的定义 \(\to\) 五大等价判定准则(特征值、主子式、二次型、Cholesky、Gram 矩阵) \(\to\) 正定矩阵的代数性质 \(\to\) 矩阵平方根 \(\to\) Schur 补与正定性判定 \(\to\) 矩阵变量的不等式:Löwner 偏序 (\(\succeq\)) \(\to\) 应用:统计学中的协方差矩阵、最优化中的凸性判定、工程力学中的刚度矩阵

延伸:正定矩阵是凸优化的几何核心;它不仅是标量“正数”在矩阵维度的延伸,更是现代控制理论、金融风险建模以及机器学习损失函数的基础

正定矩阵(Positive Definite Matrix)是线性代数中最受青睐的一类矩阵。它们在结构上极其对称,在谱上极其纯净(特征值全为正),且具有完美的几何稳定性。在物理学中,它们代表了系统的能量基态;在统计学中,它们刻画了变量间的协方差。本章将确立正定性的多维判定标准,并引入描述矩阵“大小”的偏序关系。


16.1 定义与五大判定准则

定义 16.1 (正定与半正定)

对于实对称矩阵 \(A \in S_n\): 1. 正定 (PD):对所有 \(\mathbf{x} \neq \mathbf{0}\),均有 \(\mathbf{x}^T A \mathbf{x} > 0\)。记作 \(A \succ 0\)。 2. 半正定 (PSD):对所有 \(\mathbf{x}\),均有 \(\mathbf{x}^T A \mathbf{x} \ge 0\)。记作 \(A \succeq 0\)

定理 16.1 (判定准则)

以下条件对于实对称矩阵 \(A\) 相互等价: 1. 特征值\(A\) 的所有特征值 \(\lambda_i > 0\)。 2. 顺序主子式\(A\) 的所有 \(k\) 阶顺序主子式均大于 0。 3. Cholesky 分解:存在唯一的下三角阵 \(L\)(对角元全正)使得 \(A = LL^T\)。 4. Gram 矩阵:存在列满秩矩阵 \(B\) 使得 \(A = B^T B\)。 5. 能量:二次型定义的曲面是开口向上的超抛物面。


16.2 矩阵平方根与 Schur 补

定理 16.2 (矩阵平方根)

\(A \succeq 0\),则存在唯一的半正定矩阵 \(B\) 使得 \(B^2 = A\)。记作 \(B = A^{1/2}\)

技术:Schur 补判定

分块矩阵 \(M = \begin{pmatrix} A & B \\ B^T & C \end{pmatrix}\) 正定,当且仅当 \(A \succ 0\)Schur 补 \(S = C - B^T A^{-1} B \succ 0\)


16.3 Löwner 偏序

定义 16.2 (Löwner 偏序)

对于对称矩阵 \(A, B\),定义 \(A \succeq B \iff A - B \succeq 0\)性质: 1. 若 \(A \succeq B\)\(C \succeq 0\),则 \(A + C \succeq B\)。 2. 若 \(A \succeq B \succ 0\),则 \(B^{-1} \succeq A^{-1} \succ 0\)(逆算子反号)。


练习题

1. [判定] 判定 \(A = \begin{pmatrix} 2 & -1 \\ -1 & 2 \end{pmatrix}\) 是否正定。

参考答案

计算主子式: 1. 一阶:\(D_1 = 2 > 0\)。 2. 二阶:\(D_2 = 2 \cdot 2 - (-1) \cdot (-1) = 3 > 0\)结论:由于所有顺序主子式为正,该矩阵是正定的。

2. [特征值] 若 \(A\) 是正定矩阵,其行列式 \(\det(A)\) 是否一定大于 0?

参考答案

解析: 1. 正定矩阵的所有特征值 \(\lambda_i\) 均大于 0。 2. \(\det(A) = \prod_{i=1}^n \lambda_i\)。 3. 多个正数的乘积必为正数。 结论:是的,\(\det(A) > 0\)。注意:行列式为正只是必要条件,不是充分条件(如 \(\operatorname{diag}(-1, -1)\))。

3. [性质] 证明:若 \(A \succ 0\)\(B \succ 0\),则 \(A + B \succ 0\)

参考答案

证明: 1. 对任意非零向量 \(\mathbf{x}\),考虑二次型 \(\mathbf{x}^T (A+B) \mathbf{x}\)。 2. 利用线性:\(= \mathbf{x}^T A \mathbf{x} + \mathbf{x}^T B \mathbf{x}\)。 3. 由于 \(A, B \succ 0\),有 \(\mathbf{x}^T A \mathbf{x} > 0\)\(\mathbf{x}^T B \mathbf{x} > 0\)。 4. 两个正数之和必为正。 结论:正定矩阵的集合对加法封闭。

4. [逆矩阵] 若 \(A \succ 0\),证明其逆矩阵 \(A^{-1}\) 存在且 \(A^{-1} \succ 0\)

参考答案

证明: 1. 由于 \(\lambda_i > 0\),行列式不为 0,故逆矩阵存在。 2. \(A^{-1}\) 的特征值为 \(1/\lambda_i\)。 3. 因为 \(\lambda_i > 0\),所以其倒数 \(1/\lambda_i\) 也必大于 0。 4. 根据特征值判定准则,\(A^{-1}\) 是正定的。

5. [Gram矩阵] 已知 \(A = B^T B\),其中 \(B\) 的秩为 \(r\)。当 \(r\) 满足什么条件时 \(A\) 是正定的?

参考答案

判定: 1. \(A\) 是正定的充要条件是其核为空,即 \(Ax=0 \implies x=0\)。 2. \(x^T A x = \|Bx\|^2\)。若 \(Bx=0\),则 \(x^T A x = 0\)。 3. 为了保证对任何非零 \(x\) 都有 \(x^T A x > 0\),必须有 \(Bx \neq 0\)。 4. 这要求 \(B\)列满秩的。 结论:若 \(B\)\(m \times n\) 阵,则要求 \(r = n\)

6. [对角元] 证明:正定矩阵的主对角线元素必为正。

参考答案

证明: 1. 取标准基向量 \(\mathbf{e}_i = (0,\ldots,1,\ldots,0)^T\)。 2. 根据正定性定义,\(\mathbf{e}_i^T A \mathbf{e}_i > 0\)。 3. 展开得 \(\mathbf{e}_i^T A \mathbf{e}_i = a_{ii}\)结论\(a_{ii} > 0\) 对所有 \(i\) 成立。

7. [Schur补] 判定 \(\begin{pmatrix} 1 & 2 \\ 2 & 5 \end{pmatrix}\) 是否正定(使用 Schur 补)。

参考答案

计算步骤: 1. 左上角 \(A = (1)\)。由于 \(1 > 0\),满足初步条件。 2. 计算 Schur 补 \(S = C - B^T A^{-1} B = 5 - 2(1)^{-1}2 = 5 - 4 = 1\)。 3. 由于 \(S = 1 > 0\),满足 Schur 补判据。 结论:该矩阵是正定的。

8. [平方根] 求 \(A = \begin{pmatrix} 4 & 0 \\ 0 & 9 \end{pmatrix}\) 的平方根。

参考答案

结论: \(A^{1/2} = \begin{pmatrix} 2 & 0 \\ 0 & 3 \end{pmatrix}\)解析:对于对角阵,平方根只需对每个对角元开方。

9. [偏序] 若 \(A \succeq B \succ 0\),证明 \(\operatorname{tr}(A) \ge \operatorname{tr}(B)\)

参考答案

证明: 1. \(A - B \succeq 0\) 意味着 \(A-B\) 的所有特征值 \(\mu_i \ge 0\)。 2. 迹是特征值的和:\(\operatorname{tr}(A - B) = \sum \mu_i \ge 0\)。 3. 利用迹的线性:\(\operatorname{tr}(A) - \operatorname{tr}(B) \ge 0 \implies \operatorname{tr}(A) \ge \operatorname{tr}(B)\)

10. [统计应用] 为什么协方差矩阵总是半正定的?

参考答案

统计解释: 1. 协方差矩阵 \(\Sigma\) 的二次型 \(v^T \Sigma v\) 代表了变量线性组合 \(v^T \mathbf{X}\)方差。 2. 方差在定义上是非负的:\(\operatorname{Var}(Y) = E[(Y-E[Y])^2] \ge 0\)代数结论:由于任何线性组合的方差都不能为负,协方差矩阵作为这一能量测度的载体,必须是半正定的。

本章小结

正定矩阵构建了高维空间的凸性几何:

  1. 多维的正值性:正定性是实数“大于零”概念在算子层面的完美延伸,它确立了能量、概率和距离的合法性。
  2. 判定的多样性:从微观的元素规律(主子式)到宏观的能量表现(二次型),再到内部的结构分解(Cholesky),多维度的等价性为不同领域的应用提供了工具。
  3. 计算的优越性:正定矩阵在数值计算中具有天然的“稳定性”,Löwner 偏序的引入使得我们能像处理实数不等式一样处理矩阵函数,构成了算子分析的核心。