笔记|世界模型(七):前沿与统一视角——五条路线的收敛
前置知识:本文是世界模型系列的终篇。建议先阅读前六篇。 - (一)世界模型基础 - (二)Dreamer 系列 - (三)JEPA - (四)视频生成世界模型 - (五)物理化世界模型 - (六)自动驾驶世界模型
0. 2026 年的世界模型:百花齐放还是趋于收敛?
回顾过去三年(2023-2026),世界模型领域从五条独立的技术路线发展而来。截至 2026 年,我们看到了一个明确的趋势:路线开始交叉融合。
本篇将讨论四个前沿方向,然后从统一视角分析路线收敛。
1. 4D 生成:时空一体的世界构建
1.1 什么是 4D 生成?
4D = 3D 空间 + 时间。4D 生成的目标是从文本/图像/视频生成随时间变化的 3D 场景。
这与视频生成(2D+T)的本质区别:4D 生成的输出是一个可以从任意角度、任意时刻渲染的 3D 场景。
1.2 4D Gaussian Splatting
主流的 4D 表示基于 4D Gaussian Splatting:
每个高斯核的参数是时间的函数:
\[ \begin{aligned} \mu_i(t) &= \mu_i^0 + \Delta\mu_i(t) \quad &\text{(位置随时间变化)} \\ \Sigma_i(t) &= R_i(t) S_i(t) S_i(t)^\top R_i(t)^\top \quad &\text{(形状随时间变化)} \\ \alpha_i(t) &= \sigma(\hat{\alpha}_i + \Delta\alpha_i(t)) \quad &\text{(透明度随时间变化)} \end{aligned} \]
时间函数 \(\Delta\mu_i(t)\)、\(\Delta\alpha_i(t)\) 等通常用小型 MLP 或多项式参数化:
\[ \Delta\mu_i(t) = \text{MLP}_\theta(t, \mathbf{f}_i) \quad \text{或} \quad \Delta\mu_i(t) = \sum_{k=0}^{K} c_k^i t^k \]
1.3 代表工作
| 方法 | 表示 | 时间建模 | 文本控制 |
|---|---|---|---|
| 4D-GS (2024) | 4D Gaussian | 多项式 | ✗ |
| DreamGaussian4D (2024) | 4D Gaussian | MLP | ✓ |
| Align Your Gaussians (Google, 2024) | 4D Gaussian | Score Distillation | ✓ |
| TC4D (2024) | 4D Gaussian + 轨迹控制 | 条件 MLP | ✓ |
1.4 4D 生成与世界模型的关系
4D 生成可以视为世界模型的一种显式表示:
\[ \text{世界模型}: s_{t+1} = f(s_t, a_t) \quad \leftrightarrow \quad \text{4D 生成}: \text{Scene}(t+1) = \text{Render}(\mathcal{G}(t+1)) \]
区别在于:传统世界模型预测潜变量,4D 生成直接构建可渲染的 3D 场景。
2. 评估框架:WorldScore 与 WorldModelBench
2.1 如何评估世界模型?
传统指标(FID、FVD)只衡量生成质量,不衡量"物理正确性"。WorldScore(2025)提出了专门评估世界模型的指标体系。
2.2 WorldScore 的五个维度
| 维度 | 评测内容 | 量化方式 |
|---|---|---|
| 3D 一致性 | 多视角几何一致 | 重投影误差 + 深度一致性 |
| 物理合理性 | 运动符合物理定律 | 速度/加速度曲线分析 |
| 时序一致性 | 帧间内容连贯 | 光流平滑度 + 对象追踪 |
| 可控性 | 对输入条件的响应精度 | 动作-输出对应关系 |
| 多样性 | 不同采样的变化范围 | FID diversity |
2.3 综合评分
\[ \text{WorldScore} = \prod_{i=1}^{5} d_i^{w_i}, \quad \sum_i w_i = 1 \]
使用几何平均而非算术平均——任何一个维度的严重失败都会拉低总分,这符合安全关键场景的需求(一个物理离谱的帧就足以让仿真器不可用)。
2.4 各模型表现
| 模型 | 3D 一致性 | 物理合理性 | 时序一致性 | 综合 WorldScore |
|---|---|---|---|---|
| Sora | 中 | 低 | 高 | 中 |
| Cosmos | 中 | 中 | 高 | 中上 |
| Genie 2 | 高 | 中 | 中 | 中上 |
| DreamerV3 | - | 高 | - | -(不生成像素) |
3. 具身智能中的世界模型
3.1 Thinker-Talker 架构
2025-2026 年的具身智能研究中,一种流行的架构是 Thinker-Talker:
- Thinker(世界模型):在潜空间中"想象"未来,生成预测和计划
- Talker(策略网络/LLM):基于 Thinker 的预测做出决策
\[ \begin{aligned} \text{Thinker:} \quad & z_{t+1:t+H} = \text{WorldModel}(z_t, a_{t:t+H-1}) \\ \text{Talker:} \quad & a^* = \text{Policy}(z_t, z_{t+1:t+H}) \end{aligned} \]
3.2 LeWorldModel:自动驾驶中的世界模型
LeWorldModel(2025)结合了 JEPA 和 BEV 预测:
- 在 BEV 嵌入空间(而非像素空间)做预测
- 用 JEPA 式训练(嵌入预测,无解码器)
- 在嵌入空间中做下游规划
\[ \begin{aligned} z_t^{\text{BEV}} &= \text{BEVEncoder}(\{I_t^{(i)}\}_{i=1}^{N_{\text{cam}}}) \\ \hat{z}_{t+1}^{\text{BEV}} &= g_\phi(z_t^{\text{BEV}}, a_t) \end{aligned} \]
3.3 机器人操作中的世界模型
UniPi(2023)用视频生成模型做机器人规划:
- 给定当前场景图像和目标描述("把红色方块放到蓝色碗里")
- 用视频生成模型"想象"完成任务的视频
- 用逆动力学模型从视频中提取动作序列
- 执行提取的动作
\[ \text{Image}_0 + \text{Goal} \overset{\text{Video Gen}}{\longrightarrow} \hat{V}_{0:T} \overset{\text{Inverse Dynamics}}{\longrightarrow} a_{0:T-1} \overset{\text{Execute}}{\longrightarrow} \text{Robot} \]
4. 五条路线的收敛
4.1 收敛趋势分析
1 | 2023: 2026: |
4.2 三个融合点
融合点 1:潜空间统一
- Dreamer 的 RSSM 潜空间 + JEPA 的嵌入空间 → 统一的潜在世界表征
- TD-MPC2 已经证明:无解码器的潜空间世界模型在多任务上表现优异
融合点 2:生成 + 物理
- 视频生成提供视觉逼真度
- 物理约束提供因果正确性
- NewtonGen 和 Cosmos-Transfer 代表了两种融合方式
融合点 3:通用 + 领域
- 通用世界模型(Cosmos, Sora)提供基础能力
- 领域微调(驾驶、机器人、游戏)提供专业精度
- 类似 LLM 的 "Foundation Model + Fine-tuning" 范式
4.3 路线对比总结
| 路线 | 核心优势 | 核心局限 | 2026 状态 |
|---|---|---|---|
| Model-based RL | 样本效率最高 | 仅潜空间,无视觉 | DreamerV3 固定超参横扫 |
| JEPA | 信息选择性,无需重建 | 不能生成,不能可视化 | V-JEPA 2 加入动作条件 |
| 视频生成 | 视觉逼真,涌现能力 | 物理不准确,计算昂贵 | Cosmos 开源,Genie 3 交互 |
| 物理化生成 | 物理正确性 | 场景受限,方法碎片化 | NewtonRewards 后训练范式 |
| 自动驾驶 | 领域优化,实用性强 | 泛化性差 | Vista/OccWorld 走向实用 |
5. 开放问题
5.1 世界模型需要多大的规模?
Sora 和 Cosmos 表明,规模是涌现物理理解的关键因素。但多大才"够"?
\[ \text{能力} \overset{?}{=} f(\text{参数量}, \text{数据量}, \text{计算量}) \]
是否存在类似 LLM 的 Scaling Law for World Models?目前没有定论。
5.2 统计相关性 vs 因果理解
这是最根本的哲学问题:
| 问题 | 统计模型能做到 | 需要因果模型 |
|---|---|---|
| "球掉下来会怎样?" | ✓(训练数据中见过) | ✓ |
| "月球上球掉下来会怎样?" | ✗(需要外推) | ✓ |
| "如果重力加倍呢?" | ✗(反事实推理) | ✓ |
| "为什么球会掉?" | ✗(无解释能力) | ✓ |
Pearl 的因果层级(Ladder of Causation):
\[ \underbrace{\text{关联}}_{\text{Level 1: } p(y|x)} \subset \underbrace{\text{干预}}_{\text{Level 2: } p(y|do(x))} \subset \underbrace{\text{反事实}}_{\text{Level 3: } p(y_x|x', y')} \]
当前所有数据驱动的世界模型最多处于 Level 1(统计关联),偶尔展现 Level 2 的能力。真正的"世界模型"需要达到 Level 3。
5.3 评估难题
目前没有统一的世界模型评估标准:
- Dreamer 用 RL 任务的回报评估
- Sora 用 FVD 和人类评估
- OccWorld 用 mIoU 评估
- PhysDreamer 用物理准确性评估
WorldScore 是第一次尝试统一评估,但仍然不完善。

6. 技术演进全景图
1 | 1943: Craik, "心智模型" |
7. 系列总结
| 篇目 | 主题 | 核心信息 |
|---|---|---|
| 第一篇 | 基础概念 | 世界模型 = 前向动力学 + 观测模型 + 奖励模型 |
| 第二篇 | Dreamer | RSSM 在潜空间想象训练策略 |
| 第三篇 | JEPA | 嵌入空间预测,丢弃不可预测细节 |
| 第四篇 | 视频生成 | 大规模视频模型展现涌现物理理解 |
| 第五篇 | 物理化 | 显式嵌入物理定律到生成过程 |
| 第六篇 | 自动驾驶 | 像素预测 / 占用预测 / 结构化预测 |
| 第七篇 | 前沿 | 4D 生成 / 评估框架 / 路线融合 |
世界模型是通向通用人工智能的核心模块之一。无论是 LeCun 的 JEPA 路线还是 OpenAI 的视频生成路线,最终目标一致:构建一个能够预测、推理、规划的世界内部表征。 技术路线的收敛还需要时间,但方向已经越来越清晰。
参考文献
- Pearl, J. (2009). Causality: Models, Reasoning, and Inference. Cambridge University Press.
- Ha, D. & Schmidhuber, J. (2018). World Models. arXiv:1803.10122.
- LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. OpenReview.
- Du, Y., et al. (2023). UniPi: Learning Universal Policies via Text-Guided Video Generation. NeurIPS 2023.
- NVIDIA (2025). Cosmos World Foundation Model Platform for Physical AI. arXiv:2501.03575.