深度学习是如何统治所有机器学习的学习类型的
深度学习从刚开始的统治有监督学习,到(Transformer的注意力机制后的)统治无(自)监督学习,其表征学习能力远远超过传统机器学习。
本文从传统机器学习的学习任务种类角度来分析深度学习是如何统治有监督和无(自)监督学习的;此外,还将分析现在的各种生成式模型都基于哪些机器学习的学习规则 - alittlebear’s blog。
无监督、自监督才是王道
翻开传统机器学习教科书(如周志华老师的《机器学习》,朱军老师的《概率机器学习》的基础篇),里面基本都是有监督学习的算法:(广义)线性模型和贝叶斯分类器、决策树和集成学习、神经网络、支持向量机;只有聚类(K-Means)和降维(PCA)是无监督学习。
但随着硬件软件的进步,和大数据时代的到来,减少人工智能模型中人工部分的需求越来越多,虽然对有监督学习算法进行一些变种可以扩展为半监督学习,但还是不够。对于十分复杂的任务需求,如图像生成来说,维度过高导致的维度灾难,人工标注的数据量远远达不到模型可以正确拟合的需求。
基于此,某种意义上的自我生成式模型(从生成式对抗网络、基于妥协的有RLHF【Reinforcement Learning from Human Feedback,基于人类反馈的强化学习】的大语言模型、到慢慢取消HF的多模态大模型)慢慢取代了传统的回归、分类模型。
有监督学习
有监督学习(Supervised Learning)的核心在于学习一个从输入 \(x\) 到标签 \(y\) 的映射函数 \(f(x) \rightarrow y\)。这种学习方法在很长一段时间内统治了工业界,因为它目标明确、误差可导。
以前受限于硬件条件,对于一个中小型数据集(也基本只能处理中小型的,大小对比大数据时代)获取人工标记不难。并且,这些数据集往往都是十分标准化的,不然贝叶斯错误(噪声)过大导致实际效果并不好。
然而,随着硬件、软件、互联网等各个方面的发展,模型所需要学习的数据集越来越大。对于一个十分复杂的(流形上的)数据集,表达能力欠缺(如不是万能函数逼近器)的经典(有监督)机器学习算法很难进行拟合。
并且,这些数据越来越多是自动获取的,而不是人工一个一个确认、标记的。
这些原因就导致了现在有监督学习很难跟得上大数据时代的需求。并且尽管(有标签的)中小数据集上传统机器学习算法还是较为广泛的使用,现在预训练的(尤其是有双重下降现象)的大模型完成中小数据集的任务还是轻轻松松还简单的,调用api即可解决,尽管算力因为GPU的问题目前还是有点欠缺。就算如此,对比需要真人人工标注的数据还是十分快捷且廉价的。
半监督学习
为了缓解对标注数据的依赖,对于流形假设的数据集,结合无监督学习(聚类)和有监督学习的思想,我们可以仅需每个聚类的一个(或多个以减少误差)标签,这就是半监督学习(Semi-Supervised Learning)的思想。
这种折中方案仅需少量的“有标签数据”,来判断并影响周围“无标签数据”的标签。
伪标签(pseudo-labeling):先用少量的有标签数据训练一个初始模型,让它去预测无标签数据,将置信度高的预测结果作为“伪标签”,加入训练集进行迭代。
数据增强也可以算是半监督学习。假设对于(流形上的)数据,某些扰动不会影响模型预测结果(如对图像的反转、加噪),那么这些扰动后和扰动前的图片都可以作为一个“聚类”被同一个标签影响。这也叫一致性正则化(Consistency Regularization)。
虽然半监督学习在一定程度上降低了标注成本,但它本质上依然没有摆脱“分类/回归”的传统框架,数据还是部分依赖人工标签(如上所说,受限于人工标记的噪声错误、时间和金钱成本)。
无监督学习、自监督学习
如我们对未来AI(AGI)的幻想一样,我们希望AI,如果作为一个有”自我思维”的主体的话(物理或者虚拟上的意义),有自我学习、自我进化的能力,也就是完全不依赖人类标签的无监督学习(Unsupervised Learning)和其子集自监督学习(Self-Supervised Learning, SSL)。
无监督学习从之前简单的聚类、降维,到现在包括直接用输入来寻找内在(流形)结构并输出符合结构(流形)的新(输入)数据,这样叫做密度估计(density estimation),GAN 和 Diffusion 都是直接尝试去学习输入结构。
但对于十分复杂的任务(和输入),直接去拟合输入分布因为维度灾难等问题往往十分困难;通过表征学习可以解决一些问题,但如果将这种直接对原始输入空间的生成问题转变为我们熟悉的分类、回归问题,那么很多问题都变得更加简单。
也就是,与其直接学习 \(P(X)\),不如用回归、分类的方法学习 \(P(X_{\text{masked}} | X_{\text{visible}})\) 。这对应了传统机器学习中贝叶斯分类器和判别器的关系(参考文章开头超链接)。
更具体的,提取特征中的一些特征(如 Attention 机制捕捉到的上下文依赖 Contextual Dependency 和隐表征 Latent Representation)并用这些抽象出的高维表征来构建“前置任务”(pretext task),例如预测上下文关系或填补缺失片段,反而能避开直接拟合原始像素/数据的困难,更高效地捕捉数据的本质规律。从纯粹的“分布估计”转向了“表征学习”,也就引出了自监督学习:
自监督学习(现在主流的掩码建模 Masked Modeling 和自回归 Auto-regressive 类)将输入作为输出,通过遮挡某些部分来预测这部分遮挡前的输入是什么,如上文所述这天然就对应了生成式模型的运作方式(本质上可以说这类模型还是误差修正学习)。也就是,目前来看 AI = 大生成式模型。2025 年目前此类模型基本都是基于 Transformer 的 Attention 机制(创造出来用于解决机器翻译的问题,但现在 Vision Transformer,ViT 等其他模态的注意力机制也十分成熟)的大生成式模型都是主要处理文字的。也就是,2025 年尤其是早期的很多模型基本都是大语言生成模型。
随着 2025 年走向年底,所有主流大模型开始关注并解决多模态的问题。也就是,从开始的文字输入-文字输出,变为现在的视觉、文字、声音混合在一起的多模态输入,然后给出预期的输出(目前主流还是纯文字输出,或者纯图像输出,如 Gemini 3 的混合输出暂时还没流行)。
深度学习对于传统学习目标的融合
如上节讲的,现在 2025 年基本可以将深度学习和自监督、无监督生成式模型划上等号。下文的深度学习模型都属于此类型。
误差修正学习
在传统机器学习算法中,误差学习的核心是调整模型权重来让输出对应真实标签。但人工标记的真实标签往往各种成本过高。
为此,对于时序输入,我们完全可以遮挡(中间或者后面)的一些输入,用其他输入来预测这部分,并通过被遮挡的实际输入来进行修正。也就是,本质上现在的大语言模型还是在最小化误差,进行误差修正学习。
并且,对于图片输入,GAN、Diffusion 等生成式模型也基本都是通过比较“生成”出来的图片(噪点)和预期的区别来最小化区别。
一个良好的大语言模型结构与优化过程完全可以解释成再尝试“理解”文字段落输入并给出其预期的输出。更详细的,对于一个十分庞大且复杂的输入,预期让模型学习一整个函数来逼近这个流形输入,现在的大模型让模型学习不同的函数,然后根据推理输入给出相应的函数。为了保证模型输出所用的不同函数的一致性,逻辑方面目前是通过 CoT (Chain of Thought 思维链)技术来达成文章内逻辑和数字的一致性。
竞争学习
考虑注意力机制(\(Q\) 为当前输入,\(K\) 为相关性字典的键 key,\(V\) 为值 value): \[ \text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^\top}{\sqrt{d_k}})V \] 可以看到,因为 Softmax 函数的全体输出之和为 1,所有上下文的 token 都在竞争对当前 token 的关注度。
这种高度并行的动态竞争,使得模型能够从海量噪声中自动筛选出关键特征,正是特征解耦(Feature Disentanglement)的关键点。
目前数学形式十分良好的稀疏表示(几乎适用所有模型,现在还有很多对大模型稀疏化的热门研究)本质上都可以看作是特征之间的竞争。
赫布学习
这完全对应了注意力机制对于相关词的关联性学习:如果“苹果”和“水果”经常在语境中同时出现,早期的 Word2Vec 或现代的 Transformer 的 Embedding 层会将它们的向量拉得很近(如高余弦相似度,取决于具体实现)。
并且在实际推理中,上述 Attention 公式的点积 \(Q\cdot K^\top\) 也是在计算当前 token 和所有键的相关性,只有最相关的键才会纳入考虑。
玻尔兹曼学习
传统的受限玻尔兹曼机(RBM)因训练困难而不再流行,但其思想保留在了生成式模型中。
Softmax 函数本质上还是可以算是一种玻尔兹曼分布(Gibbs Distribution)。大模型生成下一个词时,本质上还是在根据当前上下文的“能量状态”进行热力学采样。
Diffusion 扩散模型在物理上也对应于非平衡热力学过程。去噪过程可以被视为在一个复杂的能量地貌(Energy Landscape)中,沿着能量梯度下降,最终找到数据分布的低能量点(真实图像)。
基于记忆的学习
正如这篇文章提到的:深度神经网络 - alittlebear’s blog,现在过参数化的大模型将海量训练数据压缩到了千亿级的权重参数中。从记住所有细节开始,逐渐优化所有拟合的目标函数,慢慢平滑的排除噪点。
并且,对于具体的序列,还是通过上述公式,可以看出当前 token 的分析还是基于其他 token (的加权)。
表征学习
可以看到 Attention 机制,或者说更本质的表征学习(Representation Learning),完美的融合了后面几种学习方法。这让我们思考,表征学习是否是智能学习的终极范式。人类和动物大脑都是通过 NMDA 受体建立神经元彼此的相关性,来通过相关性来模拟因果性。这种表征学习能力,对应了用相关性来模拟因果性,是否就是所能达到的极限?未来AGI之上的的超智能(Superintelligence)是否会发展出更接近因果性本质的学习方式。
这些我们都不知道,但目前,我们还是可以通过表征学习来模拟大脑,达成主流对于 AGI (模拟人类而言)的目标和实现。
回到正题,传统机器学习最大的痛点就是特征工程(Feature Engineering),2025年 Kaggle 很多竞赛还是围绕(数据量不足导致的)特征工程来得分。
深度学习(基于海量数据学习的)端到端的能力完全解决了人工筛选的特征的信息丢失等问题:
- 误差修正提供了优化的动力(方向)。
- 竞争学习(Attention)提供了聚焦的能力(筛选关键信息)。
- 赫布学习提供了关联的能力(构建语义网络)。
- 玻尔兹曼思想提供了生成和采样的数学框架(拟合分布)。
- 记忆机制提供了上下文的连贯性。
只有当一个模型,或者只能充分了解到了输入的本质,才能给出符合逻辑的输出。而学习特征不仅是简单的取代人工提取后的数据,而是一个让模型尝试去理解的过程。
从这个角度看,我对现在很多模块化的设计流程感到悲观,深度学习的端到端除了现在还没解决的“黑箱问题”,几乎毫无缺点。但我相信随着稀疏化等技术的进步,很快黑箱问题可以缓解甚至完全解决,虽然我对人的思维(或者比人更理想的智能逻辑)能否完全解耦,或者理解计算机的“解耦”有很大的怀疑。

1.压缩感知和稀疏编码
2.降维
3.机器学习的学习规则
4.线性回归和逻辑回归的区别
5.模型验证与评估
6.Logit, Logistic, Sigmoid, Softmax在MLP的区别
7.激活函数和损失函数
8.非线性卷积滤波