强化学习
多臂老虎机
马尔可夫决策过程与贝尔曼方程
Q-Learning
函数近似
DQN
AlphaGo
PPO
扩散策略
基于朱军老师的ppt
随着基于注意力机制的大模型面临数据、算力、电力的限制,与对模型可解释性、可控性、推理能力的更高要求,深度学习领域出现了显著的“回溯现象”:人们纷纷将目光投向了前深度学习时代的经典算法思想。如,OpenAI 在 2025 年 11 月发布了通过稀疏电路来理解神经网络的文章:通过稀疏电路来理解神经网络 | OpenAI;还有像清华大学孙茂松老师团队在 2025 年 12 月发布的论文H-Neurons:大语言模型中幻觉相关神经元的存在、作用及其起源,基于 L1 稀疏线性回归器 Lasso 研究的幻觉相关神经元在神经网络的分布。
本文旨在深入探讨AdaBoost、主成分分析(PCA)、稀疏编码和粒子滤波这四大经典算法的基本思想在 2025 年大模型时代的重生与进化。通过对近三年论文的梳理与分析,得出结论:这些经典算法在本质上与现代大模型的对齐(Alignment)、高效微调(PEFT)、可解释性(Interpretability)及复杂推理(Reasoning)殊途同归。AdaBoost 的间隔理论与误差修正思想不仅解释了深度学习中的“良性过拟合”现象,更通过贝叶斯奖励模型集成(BRME)解决了 RLHF 中的奖励黑客问题;PCA 的低秩假设与流形理论直接催生了 LoRA-XS 等高效微调方法及 KV Cache 压缩技术,并揭示了模型本质上的线性特征;稀疏编码的基向量分解思想通过稀疏自编码器(SAE)破解了神经元超级叠加的可解释性难题,并推动了 MoE 架构与 Sparse-Linear Attention (SLA) 的演进;而粒子滤波的序列状态估计思想则为思维链(CoT)推理提供了概率论框架,并赋予视频生成模型掌握处理不确定性的物理世界模拟能力。这些经典思想正成为大模型从 System 1 向 System 2 跃迁的关键基石。
2025年人工智能最大的一个风口就是李飞飞,杨立昆等人追捧的世界模型以及具身智能。考虑大脑运作的方式,如果抽象的将大脑分为硬件(物理功能分区)和软件(神经元之间具体的连接算法)两个部分,我们之前对于深度模型(大语言模型,多模态模型)的尝试一直是仅停留在视觉、听觉,以及文字的信息处理这些方面,但是忽略了人脑占比十分巨大的一个模块:运动模块。可以说,理想中的通用人工智能 AGI 如果要100%的“取代人类”,拥有一个运动模块来理解这个世界、理解人类行为是必不可少的。
VAE(变分自编码器)
GAN(对抗生成网络)
Flows(流模型)
AR(自回归模型)
Diffusion (扩散模型)
其中与 Transformer 相关的 AR 内容在另外一篇文章讨论。
(基于朱军老师的PPT)
无监督学习任务:聚类(Clustering)
K-均值(K-mean)
混合高斯模型(Gaussian Mixture Models, GMM)
EM算法(Expectation-Maximization Algorithm)
评价指标(Evaluation Metrics)
(本文参考朱军老师的《概率机器学习》)
深度学习从刚开始的统治有监督学习,到(Transformer的注意力机制后的)统治无(自)监督学习,其表征学习能力远远超过传统机器学习。
本文从传统机器学习的学习任务种类角度来分析深度学习是如何统治有监督和无(自)监督学习的;此外,还将分析现在的各种生成式模型都基于哪些机器学习的学习规则 - alittlebear’s blog。