跳转至

第 70B 章 分子生物学与基因组学

前置:概率论基础 · 矩阵指数 (Ch13) · 马尔可夫链 (Ch71) · 向量空间 (Ch04)

本章脉络:遗传信息的数字编码 \(\to\) DNA 碱基 \(\{A, C, G, T\}\) 的向量表示 \(\to\) 突变概率矩阵 \(\to\) 核心模型:Jukes-Cantor (JC69) 模型及其代数结构 \(\to\) Kimura 两参数模型 \(\to\) 进化距离的对数矩阵推导 \(\to\) 序列比对 (Sequence Alignment) 中的线性得分函数 \(\to\) 应用:进化树 (Phylogenetic Trees) 的构建、亲缘关系鉴定、基因表达谱的聚类分析

延伸:基因组学是线性代数的“信息重构”;它将生命的演化史简化为突变矩阵在千万年间的累积乘法,证明了物种间的差异可以用算子在状态空间中的距离来量化,是理解分子进化与精准医疗的数学引擎

生命的密码是由 A, C, G, T 四种碱基编织而成的序列。在分子层面上,物种的进化本质上是碱基序列随时间的随机替换。线性代数通过突变矩阵(Substitution Matrices)精确刻画了这种概率演化。利用矩阵指数和对数,我们可以从现存序列的差异反推出它们在几百万年前的共同祖先。本章将介绍这一作为计算生物学与进化基因组学核心的代数理论。


70B.1 碱基状态与突变矩阵

定义 70B.1 (状态空间)

DNA 的状态由 4 维基向量表示: \(|A\rangle = (1,0,0,0)^T, |C\rangle = (0,1,0,0)^T, |G\rangle = (0,0,1,0)^T, |T\rangle = (0,0,0,1)^T\) 突变矩阵 \(M(t)\) 的条目 \(m_{ij}\) 表示在时间 \(t\) 内,碱基 \(j\) 变为碱基 \(i\) 的概率。


70B.2 Jukes-Cantor (JC69) 模型

定义 70B.2 (JC69 模型)

假设各碱基间突变概率相等,突变速率矩阵 \(Q\) 具有如下对称结构: $\(Q = \begin{pmatrix} -3\alpha & \alpha & \alpha & \alpha \\ \alpha & -3\alpha & \alpha & \alpha \\ \alpha & \alpha & -3\alpha & \alpha \\ \alpha & \alpha & \alpha & -3\alpha \end{pmatrix}\)$ 演化矩阵\(M(t) = e^{Qt}\)


70B.3 进化距离的代数计算

定理 70B.1 (距离公式)

若观测到两条序列间不匹配的比例为 \(p\),根据 JC69 模型,它们之间的进化距离 \(d\) 为: $\(d = -\frac{3}{4} \ln(1 - \frac{4}{3}p)\)$ 意义:这一对数公式修正了由于“多次突变回复原状”导致的低估误差。


练习题

1. [基础] 证明 JC69 速率矩阵 \(Q\) 的每一行之和均为 0。

参考答案

证明: 1. 每一行包含 1 个 \(-3\alpha\) 和 3 个 \(\alpha\)。 2. 总和 \(S = -3\alpha + \alpha + \alpha + \alpha = 0\)物理意义:这保证了突变矩阵 \(M(t) = e^{Qt}\) 的每一行之和始终为 1(概率守恒),符合随机矩阵的定义。

2. [计算] 在 JC69 模型下,若 \(Q\) 的一个非零特征值为 \(-4\alpha\),该特征值的重数是多少?

参考答案

分析: 1. \(Q\) 可以写成 \(4\alpha (\frac{1}{4}J - I)\),其中 \(J\) 是全 1 矩阵。 2. \(J\) 的特征值为 \(\{4, 0, 0, 0\}\)。 3. 故 \(Q\) 的特征值为 \(4\alpha(\frac{1}{4} \cdot 4 - 1) = 0\) 以及 3 个 \(4\alpha(\frac{1}{4} \cdot 0 - 1) = -4\alpha\)结论:重数为 3。

3. [计算] 求 JC69 演化矩阵 \(M(t)\) 的对角元 \(P_{AA}(t)\)

参考答案

利用矩阵指数公式: 1. 对角化 \(Q\) 得到特征值 \(0\)\(-4\alpha\)。 2. 映射到指数:\(e^0=1\)\(e^{-4\alpha t}\)。 3. 组合得:\(P_{AA}(t) = \frac{1}{4} + \frac{3}{4}e^{-4\alpha t}\)结论:当 \(t \to \infty\) 时,保持为 A 的概率趋于 1/4(均匀分布)。

4. [进化距离] 若两条 DNA 序列长 100 bp,有 10 处不同。计算 JC 距离。

参考答案

计算步骤: 1. 差异率 \(p = 10/100 = 0.1\)。 2. 套用公式:\(d = -0.75 \ln(1 - 1.333 \cdot 0.1) = -0.75 \ln(0.8667)\)。 3. \(\ln(0.8667) \approx -0.143\)。 4. \(d \approx -0.75 \cdot (-0.143) \approx 0.107\)结论:实际突变数估计为每 100 位发生 10.7 次(修正了看不见的隐藏突变)。

5. [Kimura模型] 什么是 Kimura 两参数模型(K2P)?其矩阵结构有何特点?

参考答案

区别: K2P 区分了转换(Transition,A-G 或 C-T)和颠换(Transversion)。 在速率矩阵中,对应位置的 \(\alpha\) 被细分为 \(\alpha\)\(\beta\)。这反映了化学结构相似的碱基间更容易发生替换的生物事实。

6. [性质] 证明:突变矩阵 \(M(t)\) 的特征值 \(\lambda\) 必须满足 \(|\lambda| \le 1\)

参考答案

理由: 因为 \(M(t)\) 是一个随机矩阵(各行元素之和为 1 且非负)。根据谱半径性质(见 Ch17),随机矩阵的最大特征值为 1,其余特征值均位于单位圆内。

7. [应用] 简述线性代数在构建进化树(Phylogeny)中的作用。

参考答案

通过计算物种间的距离矩阵 \(D\),我们可以利用 邻接法(Neighbor-Joining) 构建树。该算法通过对距离矩阵进行特定的线性变换(约减),递归地合并距离最近的节点,从而还原生命演化的分叉结构。

8. [计算] 若两条序列完全随机(差异率 \(p=0.75\)),JC 距离会发生什么?

参考答案

计算: \(1 - \frac{4}{3} \cdot 0.75 = 1 - 1 = 0\)\(\ln(0) \to -\infty\)意义:这说明当差异达到 75% 时(4 种碱基的极限随机差异),我们已经彻底丢失了共同祖先的信息,距离趋于无穷大,无法再通过代数方法重构。

9. [PCA应用] 为什么对基因芯片数据(mRNA 表达量)做 PCA 是有意义的?

参考答案

解释: 基因表达矩阵包含数万个维度。PCA 可以将这些高维数据投影到前几个主成分(如“组织类型”、“疾病状态”)上。线性代数通过寻找协方差矩阵的特征向量,自动识别出导致样本差异的核心基因簇。

10. [应用] 什么是“密码子使用偏好”的矩阵分析?

参考答案

不同的物种倾向于使用不同的三联体(密码子)来编码同一种氨基酸。 通过构建 \(64 \times N\) 的密码子出现频率矩阵并进行对应分析(一种广义的 SVD),可以揭示物种间的翻译效率差异及其在进化中的位置。

本章小结

线性代数是破解生命演化史的“分子钟”:

  1. 概率的代数化:突变矩阵将微观的随机替换转化为宏观的矩阵指数演化,确立了描述进化过程的动力学标准。
  2. 距离的拓扑修正:对数矩阵公式证明了可见的变异只是冰山一角,代数推导为还原物种间的真实遗传距离提供了唯一可靠的修正。
  3. 信息的降维:从序列比对到基因聚类,线性代数在大规模生物数据中提取出关键的结构模态,支撑了现代计算生物学与精准医学的算法核心。