
本报告基于2025年上半年Yann LeCun在多个重要平台发布的核心内容(包括YouTube视频、学术演讲、论文发布等),梳理了这位图灵奖得主、Meta首席AI科学家的最新研究方向和理论观点。报告核心发现包括:
LeCun彻底放弃大语言模型(LLM)研究:他明确声称LLM五年内将被淘汰,认为这条技术路线存在根本性缺陷[1]
世界模型与JEPA架构成为新焦点:LeCun正在全力推进基于能量函数的联合嵌入预测架构(JEPA),以替代生成式模型
PEVA模型首次实现16秒连贯视频预测:这项突破标志着具身智能体从"被动反应"向"主动规划"的转变
开源AI平台的战略重要性:LeCun警告了闭源AI的风险,强调开源是防止技术垄断的必要条件
第一部分:LeCun对当代AI范式的根本批判
1.1 "LLM在五年内将被淘汰"的核心论据
2025年4月,LeCun在YouTube上发表了一个标题性的观点:"LLM五年内将被淘汰",随后在多个演讲中系统阐述了这一论断的理由。这并非简单的唱衰,而是基于深刻的技术分析。
第一,数据效率的根本悖论:LeCun通过简单的计算揭示了问题的本质——当前规模最大的大语言模型(如GPT-4)使用约30万亿个Token进行训练,相当于100TB的文本数据。这意味着一个系统需要消耗几乎所有互联网公开文本才能达到目前的水平。
相比之下,一个四岁儿童在清醒的16,000小时内(仅相当于30分钟YouTube视频的长度)就能通过200万条视神经纤维获取相同的100TB视觉数据,并学会理解物理世界。这一对比揭示了LLM在数据利用效率上与人脑相差的巨大鸿沟。
第二,缺失四大核心能力:人类和动物的智能具备四项LLM完全缺失的基本特征:
推理能力:能够通过逻辑演绎得出结论
规划能力:能够预见未来并制订行动序列
持久记忆:能够存储和检索历史信息
物理世界理解:能够预测世界如何演变
LeCun强调,这不仅是"从量变到质变"的问题,而是LLM架构的根本局限性所致。
第三,"莫拉维克悖论"的深刻体现:一个十岁的孩子可以一次性学会清理餐桌和装洗碗机,一个17岁的青少年通过20小时练习就能学会开车。然而,我们至今没有能清理餐桌的家务机器人,也没有实现L5级自动驾驶。与此形成鲜明对比的是,LLM可以通过律师资格考试、解答数学难题、证明定理。[4]
这表明当前AI系统的能力分布完全颠倒:在抽象的符号操作上出类拔萃,但在人和动物认为"理所当然"的物理世界理解上完全无力。
1.2 LLM的"发散生成"陷阱
LeCun指出,LLM采用的自回归预测方式存在不可克服的数学缺陷。
每次生成一个Token时,都存在一定的错误概率。在自回归架构中,一旦生成了错误的Token,这个错误会被注入到下一步的输入,导致后续的预测基于错误的基础进行。如果假设每个Token的错误是独立的,那么总体误差会呈指数级增长。
这正是LLM"幻觉"(hallucination)问题的数学根源:系统无法从早期的错误中纠正,只能不断偏离真实答案的范围。这种发散性在生成长序列时特别严重,这也解释了为什么LLM在需要多步推理或长期规划的任务上表现不佳。
1.3 对生成式模型范式的否定
LeCun明确指出,生成模型的路线已经走到尽头。他的论据是:
预测的不可解性:对于视频帧生成,我们无法为每一帧的像素空间定义合理的概率分布。每张图像都包含大量我们本质上无法预测的细节(如纹理、光影、随机噪声)。
维度灾难:在高维像素空间中,试图让模型预测完整的下一帧等同于在无限可能的输出空间中进行概率建模,这在数学上是不可行的。
计算低效:与其让生成模型试图预测人无法预测的细节,不如让系统学会一种表示,其中无关细节被消除,从而简化预测问题本身。
第二部分:从JEPA到具身智能的新范式
2.1 JEPA架构:基于能量函数的替代方案
为了解决生成模型的根本问题,LeCun提出了联合嵌入预测架构(JEPA:Joint-Embedding Predictive Architecture)。这是一个根本性的范式转变。
关键创新在于:不在像素空间预测,而在抽象表示空间预测
传统生成模型的流程:观察X → 编码器 → 解码器 → 预测下一个观察Y(像素级)
JEPA的流程:观察X和观察Y → 编码器 → 在表示空间中预测
换句话说,系统同时处理当前观察和下一个观察的编码表示,然后在这个抽象空间中进行预测,而不是试图重建像素。
这一改变的效果是深刻的:
系统自动学会消除所有"无法预测"的东西。如果我观察房间的左半部分,然后摇相机转向右半部分,我无法预测每个人的长相、墙壁纹理、地板纹理。JEPA系统会自动在编码器中剔除这些不可预测的细节,只保留可被物理规律预测的信息结构。

LeCun提出的LLM与世界模型(JEPA)的核心差异对比
2.2 能量函数与基于能量的模型(EBM)
LeCun强调,要使JEPA真正有效,必须放弃传统的概率建模,转向基于能量的模型。
能量函数的核心思想是:不直接预测Y,而是定义一个能量函数E(X,Y),衡量观察X和预测输出Y的"兼容性"或"不兼容性"。当X和Y兼容时,能量值低;不兼容时,能量值高。
推理的过程就是优化:给定X,找到使能量E(X,Y)最小的Y。
这种方法的优势是:
高维拓展性:不需要像概率模型那样在高维空间定义概率分布,避免了维度灾难
灵活性:能量函数可以捕捉复杂的、非线性的兼容性关系
与人类思维的一致性:这对应于心理学中"系统2"的思考方式——在采取行动前先思考和规划
2.3 JEPA的训练技术
使训练JEPA面临一个关键技术挑战:防止编码器坍塌。如果编码器忽略所有输入,输出常数,那么预测误差永远为零,系统不会学到任何东西。
LeCun介绍了两类解决方案:
对比学习方法:选择"对比样本"(与真实样本不兼容的样本),将其能量推高。但这种方法在高维空间不能很好扩展,需要大量对比样本。
正则化方法:通过正则化器限制能量函数的"低能量体积"。具体包括:
方差-协方差正则化:对一批样本的编码表示计算协方差矩阵,强制其接近单位矩阵,确保编码中的每个维度都携带信息
蒸馏方法:使用两个编码器,其中一个通过指数移动平均跟踪另一个的权重,这样能奇异地防止坍塌(原理仍有些神秘,但实证有效)
DINO和类似方法:通过特定的自监督学习设计,无需对比样本就能学到高质量的表示
第三部分:PEVA模型——具身智能的重大突破
3.1 PEVA模型的核心创新
2025年6月,LeCun团队发布了一个重大进展:PEVA模型,首次实现了16秒的连贯场景预测。这个模型体现了JEPA理论在具身智能中的实际应用。
PEVA的核心突破在于让机器人从"被动适应环境"转变为"主动理解环境",具备了类似人类的"预判能力"。
技术方案:结构化动作表示 + 条件扩散Transformer
PEVA采用了48维的全身关节运动学数据来表示人体动作,其中包括:
关键创新是使用局部坐标系转换,使动作表示具有平移/旋转不变性。无论机器人在房间的哪个位置,相同的伸手动作会产生相同的编码。同时通过帧间差分强化时间动态特性。
3.2 时间注意力与长序列预测
PEVA面对的主要技术挑战是:动作与视觉变化存在延迟效应。当机器人向前行走时,几步之后才会看到新场景;当伸手时,需要预判手臂进入视野的角度。
解决方案:
随机时间跳跃训练:从长视频中随机采样帧,让模型学习不同时间尺度下的动作动态(快速vs缓慢动作的视觉差异)
跨历史帧注意力机制:通过交叉注意力,让当前帧生成时关注过去多帧的"干净"特征(未加噪声的真实编码),建模动作的延迟视觉影响
自回归扩散训练:通过强制输入真实历史帧编码,结合序列级损失函数,确保生成帧在动作驱动下保持时序连贯
这样的设计使PEVA能够实现16秒的长期连贯预测,这在当时代表了世界模型在长视频预测上的最高水平。
3.3 实验成果:从单步到规划
PEVA模型的性能提升是显著的:
指标 | 改进幅度 | 对比对象 |
单步预测LPIPS | 下降0.01 | CDiT基线 |
单步预测FID | 下降1.42 | CDiT基线 |
原子动作精准度 | 降低5%-8% | CDiT基线 |
16秒长序列预测FID | 下降15%以上 | Diffusion Forcing |
最关键的是,PEVA具备了智能规划能力:
规划任务示例:在给定多个可能的动作序列时,模型能通过感知相似度评估自动排除不合理选项,选择与目标场景最匹配的动作路径。例如,PEVA能够通过感知环境,排除"打开水槽"和"走到户外"的不合理动作,找到"打开冰箱"的正确选择。
这种能力表明,PEVA不仅仅在"预测"静态帧,而是真正学会了因果推理和环境理解。
3.4 从Nymeria数据集到真实世界应用
PEVA的训练基于Nymeria数据集,这是一个包含同步的第一视角视频与全身动作捕捉数据的真实场景数据集,覆盖了做饭、行走等日常动作。
使用真实数据而非模拟环境是关键,因为模拟数据存在物理偏差。这保证了学到的世界模型能够真实反映物理规律。
第四部分:LeCun对AI未来的宏观展望
4.1 人类不会被取代,而会成为"AI管理者"
与硅谷中普遍的"AI威胁论"不同,LeCun提出了一个更微妙的观点:未来的人类不会被AI取代,而是会进化为**"AI管理者"**。
他的核心论点是,未来每个人都会配备一整套虚拟AI助手,这些助手在智能眼镜或其他可穿戴设备中运行。人类的角色将从直接执行任务转变为高层战略规划和价值判断。
这种转变的条件是AI系统必须具备真正的世界模型和规划能力,能够理解复杂的长期目标,而不仅仅是执行预编程的指令。换句话说,人类管理AI助手就像管理聪明的虚拟员工一样。
4.2 "系统2"思维的必要性
LeCun批评当前AI只能进行"系统1"(直觉反应)的思维,无法进行"系统2"(规划思考)的思维。
系统1对应于快速、无意识的反应,这正是LLM所做的——看到输入后立即生成下一个Token。系统2对应于缓慢、深思熟虑的思考,涉及规划、推理和对后果的预见。
要实现人类水平的AI,系统必须具备系统2的能力。这意味着:
给定问题前有充分的"思考时间"
能够进行复杂的多步推理
能够在需要时增加计算量来处理困难问题
能够验证自己的推理过程
这正是世界模型 + 规划优化框架所提供的。
4.3 对学术AI研究的建议
LeCun给当代学生和研究人员提出了明确的建议:
避免研究LLM:
应该专注的方向:
JEPA和动作条件化的世界模型
不确定性下的规划
分层规划算法
学习成本模块(大多数情况无法手工设计)
探索策略的改进
优化和分布式算法
这些方向代表了AI研究的前沿,有巨大的理论和实际问题等待解决。
第五部分:开源AI的战略重要性
5.1 开源作为防止垄断的必要条件
LeCun对开源AI平台的立场非常坚定,他认为这不仅是技术问题,而是地缘政治和文明问题。
他的核心论点是:未来的通用虚拟助手将如同互联网一样成为基础设施,不能被少数公司垄断。如果这项技术仅由美国西海岸的几家公司或中国的少数企业控制,将导致严重的权力集中和社会不公。
关键观点:
规模化成本的递减性:虽然训练基础模型成本巨大,但一旦有了基础模型,针对特定应用的微调相对便宜,大多数人都能负担
全球合作的必要性:可能没有单一实体能够独自训练下一代基础模型,这可能需要以协作或分布式的方式进行
多语言、多文化的需求:平台必须能够理解世界上所有的语言、文化、价值体系和兴趣点。这需要全球开源社区的共同贡献
5.2 对闭源政策的警告
LeCun特别警告了可能出现的政治风险:
一些政府可能受地缘政治竞争诱惑,宣布开源AI模型为非法,推理是保密研究能维持领先优势。但这将是一个巨大错误。
历史证明:当你秘密进行研究时,你最终会落后。世界其他地方会转向开源,并最终超越你。目前的趋势已经证实这一点——开源模型正在慢慢但稳步地超越专有模型。
这既是一个技术预言,也是对决策者的警告。
第六部分:关键观点的理论一致性分析
6.1 从CNN到JEPA的思想连贯性
观察LeCun的职业轨迹,我们可以看到一条明确的思想线索:
CNN时代的洞察:LeCun在30多年前设计卷积神经网络时,灵感来自对生物视觉系统的观察——人眼首先识别边缘、颜色等简单特征,然后才识别复杂结构。
JEPA时代的延伸:同样的哲学现在应用于世界理解——系统应该学会识别世界结构中可被物理规律预测的部分,而非试图预测不可预测的细节。
这表明LeCun的思想并非出于当下的流行趋势反驳,而是源于对智能本质的长期思考。
6.2 与其他理论的对话
LeCun在演讲中多次提到与经济学家Daniel Kahneman的"系统1/系统2"理论的关系,以及与心理学和神经科学的联系。这表明他正在寻求跨学科的理论基础,而不仅仅是工程解决方案。
结论
核心发现总结
范式转变的必然性:LeCun认为,对LLM的热情代表了AI研究的一个"集体幻觉"。真正的进步不在于扩大模型规模和数据,而在于根本性的架构创新。
JEPA和世界模型的可行性:通过PEVA等实验证明,世界模型框架已经能够实现实用的效果(16秒连贯预测、动作规划),显示了这条路线的前景。
人类智能的本质洞察:LeCun对人脑的数据效率分析(儿童用100TB数据vs LLM用100TB数据的学习成果对比)揭示了AI研究的根本问题——不是数据不足,而是学习范式错误。
社会和政治的考量:LeCun将技术问题提升到文明和民主的层面,强调开源AI对防止技术垄断的战略重要性。
对AI产业的潜在影响
如果LeCun的预测成立,接下来5年将见证:
LLM热潮的逐步降温,投资重心向世界模型转移
开源AI模型超越专有模型成为主流
具身智能和机器人技术迎来新的发展机遇
学术AI研究的重新定向,远离LLM竞赛
最后的观点
LeCun本人在最新演讲中承认,实现完整的高级机器智能(AMI)可能需要"至少几年甚至十年"。但这正是他的现实主义之处——他既不像某些AI乐观主义者那样夸大LLM的能力,也不陷入对AGI的过度担忧。
相反,他展现了一个务实的研究路线图:从现有的JEPA框架出发,逐步构建能够理解、规划和学习的AI系统。这条路线的挑战巨大,但其理论基础牢固。
参考来源
本报告基于以下核心信息源编撰:
LeCun 2025年4月YouTube讲座"LLM五年内将被淘汰"
LeCun 2025年2月巴黎AI峰会演讲"未来致力于模型架构创新"
LeCun团队2025年6月PEVA模型发布论文与评论
LeCun 2024年10月哈德逊论坛"万字演讲"
及其他学术和技术讨论源