具身智能:让 AI 尝试模仿人类的,通往 AGI 的一次尝试
2025年人工智能最大的一个风口就是李飞飞,杨立昆等人追捧的世界模型以及具身智能。考虑大脑运作的方式,如果抽象的将大脑分为硬件(物理功能分区)和软件(神经元之间具体的连接算法)两个部分,我们之前对于深度模型(大语言模型,多模态模型)的尝试一直是仅停留在视觉、听觉,以及文字的信息处理这些方面,但是忽略了人脑占比十分巨大的一个模块:运动模块。可以说,理想中的通用人工智能 AGI 如果要100%的“取代人类”,拥有一个运动模块来理解这个世界、理解人类行为是必不可少的。
智能是什么
为了明白为什么具身智能向 AGI (通用人工智能)迈出了一大步,我们先讨论什么是智能。
在《易经·系辞传》中,古人对于世界的理解被描述为“近取诸身,远取诸物。”这意味着,身体不仅是感知的容器,更是理解宇宙万物的初始模型。
荀子在《荀子·正名》中进一步阐释了知与行的关系:“知有所合,谓之智;能有所合,谓之能。”可以说,荀子认为真正的智能不仅是数据的处理(知),更是与物理世界达成某种契合的行动能力(能)。《荀子·解蔽》中的“凡以知人之性也,可以知人之理也”,也表达了智能的探索最终会回归到对“人”本身的物理属性与行为逻辑的模拟。
在西方,笛卡尔身心二元说的观点影响了几个世纪:心灵指的是能够思考、 感知、 意愿的非物质实体;而物质指的是占据空间、 可分割、 具有形状和运动的实体。尽管如此,图灵仍提出了两种“智能”:
- 离身图灵测试:以抽象思维能力来评判智能;
- 具身图灵测试:以感知来评判智能。与其拟合一个程序来模拟成年人大脑思维,不如从零开始教导一个儿童,通过物理感知和抽象思维两个方向一起打造所谓的智能。
Richard Held 的主动猫和被动猫的实验也验证了这个观点:在实验中,只有主动行走、与环境交互的猫学会了正常的视觉与行走能力,而被动被带动的猫则失去了这种能力。这证明了智能不能仅靠旁观(被动感知),必须依赖于“感知-行动”的闭环。
从所有这些前人的角度来看,具身智能并非无中生有,一直是和抽象思维平行的关于人类智能的一条线。
为什么具身智能这条路比抽象思维难走
从认知科学中可以解释为什么几十年以来人工智能都是以抽象思维为主导进行研究。莫拉维克悖论指出:计算机在成人级的智力测试(如下棋、数学)上表现优异,但在婴儿级的感知和运动任务(如识别环境、拿取物体)上却步履维艰。可以想象,人类的高级推理能力是最近几百万年才进化出的新皮层功能,而感知运动能力则是经过数亿年自然选择优化的结果,深植于旧皮层、小脑和脑干中。对于AI而言,模拟新皮层的逻辑规则相对容易(因为规则可被形式化),但要模拟旧皮层的感知经验却极其困难(因为经验是隐性的、非结构化的)。
缸中之脑:没有感知能力的 MLLM 缺乏最基本的元认知与情感调节
学界的主流观点认为,人脑的某些特定机制(如记忆提取、视觉搜索)在功能上与Transformer的注意力机制高度相似,但在“思维方式”(即推理、规划、元认知)上存在本质区别。
正如 Daniel Kahneman 的《Thinking, Fast and Slow》提出的人类认知的双系统理论所说,人类有两个思维系统:
- 直觉系统(快思考系统, System 1) - 无意识、快速、自动化的反应(如看到人脸识别情绪,听到声音转向)。依赖于亿万年进化形成的生物本能和长期训练的直觉。
- 逻辑系统(慢思考系统, System 2) - 有意识、缓慢、耗能的分析与计算。需要注意力高度集中。此外,还负责监控System 1的冲动。
可以注意到,预训练的基于注意力机制的大语言模型(或者说多模态大模型,MLLM)本质上就是 System 1 的极致体现:基于概率直觉快速生成文本,反应迅速但容易出错(幻觉),且缺乏逻辑监控。
为了模拟人的 System 2,研究者们通过 规模化(Scaling)模型产生的涌现现象(Emergent Ability)给出的复杂推理能力与小样本学习能力、思维链(Chain of Thought,CoT)、强化学习后训练(如 RLHF),等来尽量模拟人类思维方式(目前的混合专家系统 MoE 仅能表现出架构优化的功能,并没有改善模型性能的能力)。
但,可以看到人脑的整体“思维”是一个更复杂的系统,包含注意力、工作记忆、执行控制和情感调节。多模态大语言模型目前只尝试的模仿了其中的注意力(Attention 机制)、工作记忆与执行控制(智能体,Agent)、逻辑(如 CoT),并没有模仿到了人作为独立个体最关键的模块:元认知与情感调节。
于是,现在我们为了让模型可以像带入一个人般的有元认知与情感调节的思考,开始尝试让模型增加一个模态:感知模块,这也是具身智能尝试去实现的。
结语
现在,人们对于 AGI 的认知基于三个方向:
- 世界模型 - 未来的 AI 不应仅仅预测下一个 Token,而应建立一个内部的世界模型,在抽象表征空间中预测世界的状态变化。这种模型将具备因果推断能力,能够进行反事实推理,从而彻底打破“波坦金式理解”,实现对物理世界的真正认知。
- System 1 和 2 的完美模拟 - AI 应实现“快思慢想”的无缝切换。
- 具身与空间智能 - 除了 AI 内部的世界模型,其应处在一个外部“世界模型”,也就是,通过 AlphaEarth 等项目建立地球级的数字孪生,或者通过机器人技术进入物理世界,获得与环境互动的真实反馈,变得具备空间智能。
目前,约束 AGI 成型的最大因素还是算力和电力。训练GPT-4级别的模型已消耗巨大的电力(以及使用了巨量的 GPU),而未来的超级智能可能需要整个国家甚至行星级别的能源支持。正如 Kardashev 指数所指,地球文明目前仅为0.7级,也许 AGI 会在如可控核聚变等能源技术革命出来之前一直都出不来。
最后,正如莫拉维克悖论所提到的,也是我们这几年看到的,AI大模型首先冲击的(并且已经几乎取代了)是翻译、初级编程、文案写作等“白领”工作。涉及非结构化环境交互的“蓝领”工作(如水管工、电工、护理员),目前在具身智能完全成熟前还是较为不可替代的。而基于人对于社交、社会互动需求的服务、娱乐相关产业更(暂时的)不会被替代 - 人类将获得前所未有的闲暇。
并且,社会和互联网呈现着偏向于 Neil Postman 所说的“娱乐至死”的趋势 - 正如美丽新世界描绘的。结合上述描述的人们娱乐占比越来越高,让我不禁担心未来究竟会如何发展:当所有人(大多数人)一整天的活动都是娱乐,当全人类关心的一切话题都是娱乐,这样的社会是否失去了应该有的“向往人类进步、社会进步”的动力。又或者说,到那个时候是否真的可以“无忧无虑”了。
1.MAT102
2.UofT Resources
3.Windows10 安卓模拟器 蓝屏解决
4.gclone转存bat
5.hexo懒人必备:自动创建文章+自动部署博客
6.博客相关的经验(ps:超级乱)