置顶|本站文章索引
关于我
来着何人,报上姓名。俺是AAA高老庄旺铺招租,是一名三维视觉算法工程师,以前从事SLAM,现在主要从事3dgs重建,神经辐射场,图像和视频的AIGC,目前在自动驾驶领域当牛马,也可以找我交流CSGO和OW(上勾拳!)。
以后会在这边分享一些技术,或者一些杂谈。
联系方式
如果你想要与我交流,可以通过以下方式联系我:
GitHub: https://github.com/chengYi-xun
邮箱: ldq4399@163.com
感谢你的阅读,希望我们可以一起学习和成长!
生成式人工智能
通用理论
笔记|生成模型(一):一些概率论的基础概念和理论
笔记|生成模型(二):生成模型的技术路线总览
笔记|生成模型(三):生成对抗理论
笔记|生成模型(四):变分自编码器理论
笔记|生成模型(五):DDPM理论
笔记|生成模型(六):DDIM理论
笔记|生成模型(七):Score-Based理论
笔记|生成模型(八):SDE统一DDPM和SMLD
笔记|生成模型(九):Classifier
Guidance 理论与实现
笔记|生成模型(十):Classifier-Free
Gui ...
笔记|世界模型(七):前沿与统一视角——五条路线的收敛
前置知识:本文是世界模型系列的终篇。建议先阅读前六篇。
- (一)世界模型基础 - (二)Dreamer 系列 - (三)JEPA - (四)视频生成世界模型 - (五)物理化世界模型 - (六)自动驾驶世界模型
0. 2026
年的世界模型:百花齐放还是趋于收敛?
回顾过去三年(2023-2026),世界模型领域从五条独立的技术路线发展而来。截至
2026
年,我们看到了一个明确的趋势:路线开始交叉融合。
本篇将讨论四个前沿方向,然后从统一视角分析路线收敛。
1. 4D 生成:时空一体的世界构建
1.1 什么是 4D 生成?
4D = 3D 空间 + 时间。4D
生成的目标是从文本/图像/视频生成随时间变化的 3D
场景。
这与视频生成(2D+T)的本质区别:4D
生成的输出是一个可以从任意角度、任意时刻渲染的 3D 场景。
1.2 4D Gaussian Splatting
主流的 4D 表示基于 4D Gaussian Splatting:
每个高斯核的参数是时间的函数:
\[
\begin{aligned}
\mu_i(t) &= \mu_i^0 + \Delt ...
笔记|世界模型(六):自动驾驶世界模型——从视频预测到占用预测
核心论文: - GAIA-1: arXiv:2309.17080 (2023) -
DriveDreamer: arXiv:2309.09777 (ECCV 2024) - Vista: arXiv:2405.17398
(NeurIPS 2024) - OccWorld: arXiv:2311.16038 (CVPR 2024)
前置知识:上一篇:物理化世界模型
0.
为什么自动驾驶特别需要世界模型?
假设你在开发自动驾驶系统,需要测试"行人突然从路边冲出"的场景。你有两个选择:
真实路测:让测试车上路,等这种场景自然发生——可能等几万公里都遇不到一次,而且有安全风险
仿真器:在 CARLA
等仿真器中构建场景——但仿真器的画面和真实世界差距太大(domain
gap),训练出的模型可能无法迁移
世界模型提供了第三种选择:从真实驾驶视频中学习环境动力学,生成无限的、逼真的、可控的驾驶场景。
自动驾驶世界模型有三个独特需求:
3D
几何:必须理解三维空间(深度、遮挡、多视角一致性)
可控性:必须能根据驾驶指令生成对应场景(转弯、加速、变道)
安全关键:生成的场景必须用于安全 ...
笔记|世界模型(五):物理化的视频生成——让模型理解牛顿定律
核心论文: - PhysDreamer: arXiv:2404.13026 (ECCV
2024) - PhysGen: arXiv:2409.18964 (ECCV 2024) - NewtonGen:
arXiv:2509.21309 (2025) - NewtonRewards: arXiv:2512.00425 (2025)
代码:stevenlsw/physgen · pandayuanyu/NewtonGen
前置知识:上一篇:视频生成世界模型
0. Sora
生成的球为什么不遵守牛顿定律?
用 Sora
生成一段"球从桌子上滚下来"的视频。你可能会看到:球的轨迹看起来大致合理,但仔细观察——球在桌边没有加速(无视重力),落地后弹跳角度不对(违反反射定律),甚至可能穿过桌面。
纯数据驱动的视频模型学到了"球通常会往下掉"这种统计规律,但没有学到
\(F = ma\)
这个物理定律。在训练数据覆盖的常见场景中统计规律足够,但一旦进入未见过的物理场景(如月球上的低重力),模型就会失败。
本篇介绍四种将物理知识嵌入视频生成的方案——从显式物理仿真到可验证奖励。
1.
Ph ...
笔记|世界模型(四):视频生成即世界模拟——从 Sora 到 Genie 与 Cosmos
核心论文: - Genie: arXiv:2402.15391 (ICML 2024) -
Cosmos: arXiv:2501.03575 (2025) - UniSim: arXiv:2310.06114 (ICLR
2024)
前置知识:上一篇:JEPA
0. 如果视频模型就是世界模型?
给一个视频生成模型一张图片和指令"向左走",它生成了一段视角向左移动的视频——走廊延伸出去,墙上的画从右侧滑入视野,地板的透视关系正确变化。
这个视频模型"理解"了三维空间吗?它是不是已经在内部构建了一个"世界模型"?
2024 年 2 月,OpenAI 发布 Sora
时明确提出:视频生成模型是世界模拟器的有前途的路径。
这是与 JEPA 截然相反的立场——JEPA 说"不需要生成像素",Sora
说"生成像素本身就是理解世界"。
1.
Sora:视频生成模型作为世界模拟器
1.1 OpenAI 的定位
OpenAI 在 Sora 的技术报告中写道:
"我们发现视频模型在大规模训练后展现出了许多有趣的涌现能力。这些能力使
Sora 能够模拟物理世界中人、动物和环境的某些方面。"
1 ...
笔记|世界模型(三):JEPA——在嵌入空间预测世界
核心论文: - I-JEPA: arXiv:2301.08243 (CVPR 2023) -
V-JEPA: arXiv:2404.08471 (2024) - V-JEPA 2: arXiv:2506.09985 (2025)
代码:facebookresearch/ijepa
· facebookresearch/jepa
前置知识:上一篇:Dreamer
系列
0. 预测每片树叶的飘动是愚蠢的
观察窗外的一棵树。树叶在风中随机飘动——每片叶子的具体轨迹本质上不可预测。但你能预测"树叶还会继续飘动"、"风变大了树会摇得更厉害"。
这就是 JEPA
的核心直觉:好的预测不需要重建每个像素细节,只需要在语义层面预测未来。
Dreamer 和 Sora
都在某种程度上试图"重建"观测——前者通过解码器重建图像训练世界模型,后者直接生成视频。JEPA
走了一条完全不同的路:丢弃不可预测的细节,只在嵌入空间中预测。
1. LeCun 的认知架构提案
1.1 三种学习架构
2022 年,Yann LeCun 在白皮书 "A Path Towards Autonomous Machin ...
笔记|世界模型(二):Dreamer 系列——在想象中学习控制
核心论文: - Dreamer v1: arXiv:1912.01603 (ICLR
2020) - DreamerV2: arXiv:2010.02193 (ICLR 2021) - DreamerV3:
arXiv:2301.04104 (Nature 2025)
代码:danijar/dreamerv3
前置知识:上一篇:世界模型基础
0. 在 Minecraft
中不靠真实交互采到钻石
Minecraft 的钻石任务是 RL 界的"登月挑战":从零开始,需要砍树 →
合成工作台 → 挖石头 → 合成石镐 → 找到并挖掘钻石——约 24,000
步的长序列,中间没有任何奖励信号。
DreamerV3
是第一个从零开始、不依赖人类先验完成这个任务的算法——而且用与
Atari 和 DeepMind Control Suite 完全相同的超参数。
核心秘密:在世界模型的"想象"中大量练习,然后把学到的策略部署到真实环境。
1. RSSM:Dreamer 的心脏
1.1 为什么需要 RSSM?
上一篇介绍的 MDN-RNN 有一个限制:它的隐状态 \(h_t\)
是纯确定性的。 ...
笔记|世界模型(一):什么是世界模型?从认知科学到深度学习
系列说明:本文是世界模型系列的第一篇。世界模型领域目前技术路线尚未收敛,存在五大并行分支。本系列将从基础概念出发,按分支逐一展开。
核心论文:World Models(Ha & Schmidhuber,
2018, arXiv:1803.10122)
0. 闭眼踢球——大脑里的物理模拟器
闭上眼睛,想象你在踢一个足球。球从脚尖飞出,在空中画一条抛物线,弹地后滚动减速。
你不需要看到球,就能"预测"它的轨迹。这种能力来自你大脑中的世界模型——一个关于物理世界如何运作的内部模拟器。
认知科学家 Kenneth Craik 在 1943 年就提出了这个概念:
"如果生物体能在头脑中构建一个外部现实的微型模型,它就能在行动前先在模型中尝试各种方案,预测哪种最优。"
— Kenneth Craik, The Nature of Explanation, 1943
在深度学习中,世界模型(World
Model)就是这个"内部模拟器"的计算实现:一个能够预测环境在给定动作下如何变化的神经网络。
1. 世界模型的数学定义
1.1 核心要素
一个世界模型包含四个基本要素:
要 ...
笔记|多模态融合(六):2026 前沿——InternVL、Qwen-VL、Mamba 与多模态的未来
核心论文: - InternVL 2.5(Chen et al.,
2024, Shanghai AI Lab) - Qwen2.5-VL(Bai et al., 2025,
Alibaba) - OmniMamba(Chen et al., 2025) -
FUSION(Li et al., 2025)
前置知识:上一篇:Flamingo 与 Chameleon
0. 一张表格暴露的差距
给不同模型展示同一张包含复杂表格和小字注释的文档图片,要求模型回答"第三行第二列的数值是多少?"
模型
回答准确率
模型参数
开源
GPT-4o
94.2%
未知
✗
Claude 3.5 Sonnet
91.8%
未知
✗
InternVL 2.5-78B
90.3%
78B
✓
Qwen2.5-VL-72B
88.7%
72B
✓
LLaVA-1.5-13B
52.1%
13B
✓
两年前,开源模型和闭源模型之间有 30+ 个百分点的差距。到 2025
年底,InternVL 2.5 成为第一个在 MMMU benchmark 上突破 70% 的开源模型 ...
笔记|多模态融合(五):原生多模态——从 Flamingo 到 Chameleon
论文: - Flamingo: a Visual Language Model for
Few-Shot Learning(Alayrac et al., 2022, DeepMind) -
Chameleon: Mixed-Modal Early-Fusion Foundation Models(Meta,
2024)
代码:lucidrains/flamingo-pytorch
· facebookresearch/chameleon
前置知识:上一篇:LLaVA
0. 翻译官 vs 双语母语者
前面三篇介绍的模型——CLIP、BLIP-2、LLaVA——都遵循同一个范式:视觉编码器和语言模型是独立预训练的,通过某种中间模块(对比学习/Q-Former/MLP)将它们连接起来。
这就像两个只说各自语言的专家,中间需要一个翻译官。翻译官再好,也会有信息损失。
有没有一种模型,从第一层开始就天然理解图像和文字,就像一个双语母语者?
本篇介绍两种接近这个目标的方案:
模型
方案
类比
Flamingo
在冻结 LLM 中插入交叉注意力层
翻译官驻场在一个专家 ...