笔记|世界模型(三):JEPA——在嵌入空间预测世界
核心论文: - I-JEPA: arXiv:2301.08243 (CVPR 2023) - V-JEPA: arXiv:2404.08471 (2024) - V-JEPA 2: arXiv:2506.09985 (2025)
代码:facebookresearch/ijepa · facebookresearch/jepa 前置知识:上一篇:Dreamer 系列
0. 预测每片树叶的飘动是愚蠢的
观察窗外的一棵树。树叶在风中随机飘动——每片叶子的具体轨迹本质上不可预测。但你能预测"树叶还会继续飘动"、"风变大了树会摇得更厉害"。
这就是 JEPA 的核心直觉:好的预测不需要重建每个像素细节,只需要在语义层面预测未来。
Dreamer 和 Sora 都在某种程度上试图"重建"观测——前者通过解码器重建图像训练世界模型,后者直接生成视频。JEPA 走了一条完全不同的路:丢弃不可预测的细节,只在嵌入空间中预测。
1. LeCun 的认知架构提案

1.1 三种学习架构
2022 年,Yann LeCun 在白皮书 "A Path Towards Autonomous Machine Intelligence" 中系统对比了三种架构:
| 架构 | 预测对象 | 问题 |
|---|---|---|
| 生成式(Generative) | 预测原始输入 \(\hat{x}_{t+1}\) | 浪费容量在不可预测细节上 |
| 联合嵌入(Contrastive/JE) | 拉近正样本嵌入、推远负样本 | 需要负样本,训练不稳定 |
| JEPA(联合嵌入预测架构) | 在嵌入空间预测目标表征 | 无需重建、无需负样本 |
1.2 JEPA 的形式化定义
给定上下文输入 \(x^{\text{ctx}}\) 和目标输入 \(x^{\text{tgt}}\)(可以是被遮挡的图像块、未来的视频帧等):
\[ \begin{aligned} s_x &= f_\theta(x^{\text{ctx}}) \quad &\text{(上下文编码器)} \\ s_y &= f_{\bar{\theta}}(x^{\text{tgt}}) \quad &\text{(目标编码器,EMA 更新)} \\ \hat{s}_y &= g_\phi(s_x) \quad &\text{(预测器)} \end{aligned} \]
训练目标:
\[ \mathcal{L}_{\text{JEPA}} = \|\hat{s}_y - \text{sg}(s_y)\|_2^2 \]
其中 \(\text{sg}(\cdot)\) 是 stop-gradient。目标编码器 \(f_{\bar{\theta}}\) 通过 EMA(指数移动平均)更新:
\[ \bar{\theta} \leftarrow \tau \bar{\theta} + (1 - \tau) \theta, \quad \tau \in [0.996, 1) \]
1.3 为什么不在像素空间预测?
从信息论角度分析。设输入 \(x\) 包含两部分信息:
\[ H(x) = \underbrace{H_{\text{semantic}}}_{\text{可预测的语义}} + \underbrace{H_{\text{stochastic}}}_{\text{不可预测的噪声}} \]
- 像素重建(MAE/Dreamer 解码器):被迫建模 \(H(x)\) 的全部,包括 \(H_{\text{stochastic}}\)
- JEPA:编码器 \(f_\theta\) 可以学会丢弃 \(H_{\text{stochastic}}\),只在嵌入空间保留 \(H_{\text{semantic}}\)
命题(JEPA 的信息选择性):设 \(s = f_\theta(x)\) 为 JEPA 编码器的输出,\(y\) 为预测目标。JEPA 的最优编码器满足:
\[I(s; y) \to \max, \quad I(s; x \mid y) \to 0\]
即 \(s\) 保留了所有与 \(y\) 相关的信息,同时丢弃与 \(y\) 无关的信息。这正好是最小充分统计量(Minimal Sufficient Statistics)的定义。
1.4 防止崩塌
JEPA 面临的最大风险是表征崩塌——编码器输出常数向量也能让损失为零。
三种防崩塌机制:
- EMA 目标编码器:目标侧参数缓慢更新,提供稳定的预测目标
- 掩码策略:让预测任务足够困难(不是简单复制)
- 方差正则(可选):确保嵌入维度间有足够方差
2. I-JEPA:图像 JEPA
2.1 架构
I-JEPA 处理图像:遮挡部分 patch,从可见 patch 预测被遮挡 patch 的表征(不是像素)。
- 输入:图像被分为 \(N\) 个 patch(如 ViT 的 16×16 patch)
- 上下文 \(x^{\text{ctx}}\):可见的 patch 子集
- 目标 \(x^{\text{tgt}}\):被遮挡的若干目标块(每块包含多个连续 patch)
- 预测器 \(g_\phi\):从上下文编码预测目标块的嵌入
2.2 掩码策略
I-JEPA 的掩码策略强调语义级别而非纹理级别:
- 目标块较大(如图像面积的 15%-20%),迫使模型理解语义而非纹理
- 多个目标块(通常 4 个),从不同位置预测
- 上下文块也是连续的大块
这与 MAE 的随机掩码形成对比——MAE 遮挡 75% 的随机 patch,I-JEPA 遮挡较少但更大的连续区域。
2.3 与 MAE 的对比
| 维度 | MAE | I-JEPA |
|---|---|---|
| 预测目标 | 像素重建 | 嵌入预测 |
| 解码器 | 需要(像素解码) | 不需要 |
| 掩码比例 | 75% 随机 | 15-20% 大块 |
| 数据增强 | 必需 | 不需要 |
| ImageNet 线性评估 | 75.5% (ViT-H) | 77.5% (ViT-H) |
| GPU 小时 | 1600 | 1200 |
I-JEPA 在性能更高的同时训练更快(不需要像素解码器)。
2.4 代码核心
1 | import torch |
3. V-JEPA:视频 JEPA
3.1 从图像到视频
V-JEPA 将 I-JEPA 的思想扩展到视频——在时空维度上掩码并预测。
输入:视频片段 \(V \in \mathbb{R}^{T \times H \times W \times 3}\)
- 时空分块:将视频切分为 \((t, h, w)\) 的 3D patch
- 时空掩码:遮挡一些时空区域(如遮挡未来几帧的某个空间区域)
- 预测:从可见的时空 patch 预测被遮挡区域的嵌入
3.2 核心特点
V-JEPA 有几个重要设计选择:
- 纯特征预测:不用任何像素重建、对比学习、负样本、预训练图像编码器或文本
- 冻结评估:下游任务只训练一个轻量探针(linear probe 或 attention probe),backbone 完全冻结
- 多种掩码策略:短程掩码(同帧内空间掩码)和长程掩码(跨帧时间掩码)
3.3 V-JEPA vs 视频生成
| 维度 | V-JEPA | 视频生成模型 (Sora等) |
|---|---|---|
| 预测目标 | 嵌入向量 | 像素/视频帧 |
| 解码器 | 无 | 需要(扩散/自回归) |
| 训练目标 | MSE on embeddings | 扩散 ELBO / 自回归 NLL |
| 输出 | 不可视化的表征 | 可视化的视频 |
| 适用场景 | 表征学习、理解 | 生成、仿真 |
| 不可预测细节 | 丢弃 | 必须建模 |
3.4 V-JEPA 的数学
设视频被分为 \(N\) 个时空 patch,上下文集合 \(\mathcal{C}\),目标集合 \(\mathcal{T}\):
\[ \begin{aligned} \mathbf{s}_{\mathcal{C}} &= f_\theta(\{x_i\}_{i \in \mathcal{C}}) \in \mathbb{R}^{|\mathcal{C}| \times d} \\ \mathbf{s}_{\mathcal{T}} &= f_{\bar{\theta}}(\{x_j\}_{j \in \mathcal{T}}) \in \mathbb{R}^{|\mathcal{T}| \times d} \\ \hat{\mathbf{s}}_{\mathcal{T}} &= g_\phi(\mathbf{s}_{\mathcal{C}}, \text{pos}_{\mathcal{T}}) \in \mathbb{R}^{|\mathcal{T}| \times d} \end{aligned} \]
预测器 \(g_\phi\) 接收上下文嵌入和目标位置编码(告诉它要预测"哪里"),输出目标位置的嵌入预测。
损失函数:
\[ \mathcal{L} = \frac{1}{|\mathcal{T}|} \sum_{j \in \mathcal{T}} \|\hat{s}_j - \text{sg}(s_j)\|_2^2 \]
4. V-JEPA 2:走向世界模型
4.1 从表征到规划
V-JEPA 2(2025)将 V-JEPA 从"自监督表征学习"推进到了"世界模型"领域:
- 动作条件预测:给定动作 \(a_t\),在嵌入空间预测未来状态
- 规划能力:通过在嵌入空间中 rollout 来评估不同动作序列
- 多尺度预测:不同时间分辨率的嵌入预测
4.2 V-JEPA 2 作为世界模型的数学
\[ \begin{aligned} \text{编码:} \quad & s_t = f_\theta(o_t) \\ \text{预测:} \quad & \hat{s}_{t+1} = g_\phi(s_t, a_t) \\ \text{规划:} \quad & a^* = \arg\max_a \mathcal{R}(g_\phi(s_t, a)) \end{aligned} \]
与 Dreamer 的对比:
| 维度 | Dreamer | V-JEPA 2 |
|---|---|---|
| 预测空间 | 潜变量 + 解码器 | 纯嵌入空间 |
| 训练信号 | ELBO(重建+KL) | MSE(嵌入预测) |
| 解码器 | 需要 | 不需要 |
| 奖励模型 | 显式预测 | 隐式(通过探针) |
| 物理/机器人评估 | DayDreamer | V-JEPA 2 规划评估 |
4.3 V-JEPA 2.1:稠密特征
V-JEPA 2.1(2026)进一步增强了稠密预测能力:
- 稠密预测损失:在 patch 级别而非序列级别做预测
- 跨层自监督:利用不同 Transformer 层的特征
- 统一图像/视频 tokenizer
5. JEPA vs 生成式世界模型的深层分析
5.1 损失景观的差异
生成式模型(Dreamer, Sora)的损失函数本质上在优化:
\[ \mathcal{L}_{\text{gen}} = -\mathbb{E}_{p_{\text{data}}}[\log p_\theta(x)] \]
这要求模型对所有 \(x\) 都分配合理的概率密度——包括那些随机的、不可预测的细节。
JEPA 的损失函数:
\[ \mathcal{L}_{\text{JEPA}} = \mathbb{E}[\|g_\phi(f_\theta(x^{\text{ctx}})) - \text{sg}(f_{\bar{\theta}}(x^{\text{tgt}}))\|^2] \]
编码器 \(f_\theta\) 可以自由选择丢弃哪些信息——只要目标编码器也丢弃了同样的信息。
5.2 信息选择性的数学
定理(JEPA 编码器的信息瓶颈性质):在 JEPA 框架下,最优编码器 \(f^*\) 是 \(x\) 关于 \(y\)(预测目标)的最小充分统计量:
\[f^* = \arg\min_{f: I(f(x); y) = I(x; y)} H(f(x))\]
即在保持对预测目标的全部信息的同时,最小化自身的熵。
这与 Information Bottleneck(Tishby et al., 2000)一脉相承。直觉:如果树叶的具体飘动方向与预测下一帧的语义内容无关,JEPA 编码器会自动忽略它。
5.3 实际对比
| 任务 | 生成式更好 | JEPA 更好 |
|---|---|---|
| 图像/视频生成 | ✓ | ✗(不能生成) |
| 图像分类 | - | ✓ |
| 视频理解 | - | ✓ |
| 仿真数据生成 | ✓ | ✗ |
| 机器人规划 | ✓(可渲染) | ✓(更高效) |
| 物理推理 | 待定 | 待定 |
6. 总结
| 维度 | 要点 |
|---|---|
| 核心思想 | 在嵌入空间预测,丢弃不可预测的细节 |
| 损失函数 | \(\|\hat{s} - \text{sg}(s_{\text{tgt}})\|^2\)(简单的 MSE) |
| 防崩塌 | EMA 目标编码器 + 大块掩码 |
| I-JEPA | 图像块掩码 → 嵌入预测 |
| V-JEPA | 时空块掩码 → 嵌入预测,无像素重建 |
| V-JEPA 2 | 动作条件 + 规划能力 → 世界模型 |
| vs Dreamer | 无解码器,纯嵌入空间 |
| vs Sora | 不生成视频,只预测语义 |
JEPA 代表了一种优雅的世界模型哲学:不需要能"画出"未来,只需要能"理解"未来。 但它有一个明显的限制——无法生成可视化的预测。下一篇将介绍走向另一个极端的方案:视频生成即世界模拟。
参考文献
- LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. OpenReview.
- Assran, M., et al. (2023). Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture. CVPR 2023.
- Bardes, A., et al. (2024). Revisiting Feature Prediction for Learning Visual Representations from Video. arXiv:2404.08471.
- Tishby, N., Pereira, F., & Bialek, W. (2000). The Information Bottleneck Method. arXiv:physics/0004057.