从经典算法到深度学习,AdaBoost、PCA、稀疏编码、与粒子滤波的重生与进化

随着基于注意力机制的大模型面临数据、算力、电力的限制,与对模型可解释性、可控性、推理能力的更高要求,深度学习领域出现了显著的“回溯现象”:人们纷纷将目光投向了前深度学习时代的经典算法思想。如,OpenAI 在 2025 年 11 月发布了通过稀疏电路来理解神经网络的文章:通过稀疏电路来理解神经网络 | OpenAI;还有像清华大学孙茂松老师团队在 2025 年 12 月发布的论文H-Neurons:大语言模型中幻觉相关神经元的存在、作用及其起源,基于 L1 稀疏线性回归器 Lasso 研究的幻觉相关神经元在神经网络的分布。

本文旨在深入探讨AdaBoost、主成分分析(PCA)、稀疏编码和粒子滤波这四大经典算法的基本思想在 2025 年大模型时代的重生与进化。通过对近三年论文的梳理与分析,得出结论:这些经典算法在本质上与现代大模型的对齐(Alignment)、高效微调(PEFT)、可解释性(Interpretability)及复杂推理(Reasoning)殊途同归。AdaBoost 的间隔理论与误差修正思想不仅解释了深度学习中的“良性过拟合”现象,更通过贝叶斯奖励模型集成(BRME)解决了 RLHF 中的奖励黑客问题;PCA 的低秩假设与流形理论直接催生了 LoRA-XS 等高效微调方法及 KV Cache 压缩技术,并揭示了模型本质上的线性特征;稀疏编码的基向量分解思想通过稀疏自编码器(SAE)破解了神经元超级叠加的可解释性难题,并推动了 MoE 架构与 Sparse-Linear Attention (SLA) 的演进;而粒子滤波的序列状态估计思想则为思维链(CoT)推理提供了概率论框架,并赋予视频生成模型掌握处理不确定性的物理世界模拟能力。这些经典思想正成为大模型从 System 1 向 System 2 跃迁的关键基石。

深度神经网络

什么是深度学习

神经元模型与神经网络

神经网络的优化

卷积神经网络 CNN

循环神经网络 RNN

2025年如唐杰教授所说,人工智能 AI 几乎等同于多模态大语言模型 LLM。也就是,目前的智能很大一部分归功于谷歌的 Transformer 架构和 Attention 注意力机制;还有最底层的,深度神经网络。

本文讨论注意力机制前的深度学习(深度神经网络),虽然确实很多细节,如BP推导现在 PyTorch,TensorFlow 都完美支持根本不需要自己来,但了解一下还是十分有必要的。

(基于朱军老师的PPT)

生成式模型、判别式模型、指数族分布、和广义线性模型

朴素贝叶斯 Naive Bayes classifier

逻辑回归 Logistic regression

指数族分布 Exponential family distributions

广义线性模型 Generalized linear models

本文分析生成式概率分类模型朴素贝叶斯和判别式概率分类模型逻辑回归的根源,关系,以及他们在广义线性模型框架下的统一。

(基于朱军老师的PPT和教科书《概率机器学习》)

从LeNet到DenseNet:Transformer前卷积神经网络的一些优化技巧/结构优化

本文从LeNet开始,通过AlexNet,VGG,GoogLeNet,ResNet,Inception v2-4, DenseNet这些Transformer注意力时代前的热门CNN模型,总结出一些优化技巧和结构,分析为什么这些优化成功的提升了模型的表达能力/泛化能力/优化能力。


:D 一言句子获取中...

加载中,最新评论有1分钟缓存...