置顶|本站文章索引
关于我
来着何人,报上姓名。俺是牛大帅,是一名三维视觉算法工程师,以前从事SLAM,现在主要从事3dgs重建,神经辐射场,图像和视频的AIGC,目前在自动驾驶领域当牛马,也可以找我交流CSGO和OW(上勾拳!)。
以后会在这边分享一些技术,或者一些杂谈。
联系方式
如果你想要与我交流,可以通过以下方式联系我:
GitHub: https://github.com/chengYi-xun
邮箱: ldq4399@163.com
感谢你的阅读,希望我们可以一起学习和成长!
生成式人工智能
通用理论
笔记|生成模型(一):一些概率论的基础概念和理论
笔记|生成模型(二):生成模型的技术路线总览
笔记|生成模型(三):生成对抗理论
笔记|生成模型(四):变分自编码器理论
笔记|生成模型(五):DDPM理论
笔记|生成模型(六):DDIM理论
笔记|生成模型(七):Score-Based理论
笔记|生成模型(八):SDE统一DDPM和SMLD
笔记|生成模型(九):Classifier
Guidance 理论与实现
笔记|生成模型(十):Classifier-Free
Guidance 理 ...
笔记|强化学习(十一):V-GRPO——用变分方法让扩散模型的在线 RL 变得简单
本文为 RL 系列第十一篇。前文详细介绍了 MDP
路线的代表作(Flow-GRPO、DanceGRPO、MixGRPO),它们通过将去噪过程建模为
MDP,利用 SDE 的高斯转移核提取 \(\log\pi_\theta\)。然而,这条路线受限于 SDE
采样器、收敛效率低、算法复杂度高。V-GRPO
另辟蹊径,回归扩散模型的变分根基,用 ELBO 代理 替代 MDP
建模,实现了更简单、更快、更强的在线 RL 后训练。
⬅️ 上一篇:笔记|强化学习(十):奖励模型全景——从基础架构到
Reward Hacking 与前沿进阶
论文:V-GRPO: Online
Reinforcement Learning for Denoising Generative Models Is Easier than
You Think(Stanford & Tsinghua, 2026.04)
代码:github.com/tang-bd/v-grpo
一句话理解 V-GRPO
V-GRPO 证明了一件事:用扩散模型预训练目标(ELBO)作为
log-likelihood
的代理,配合三 ...
笔记|世界模型(六):自动驾驶世界模型——从视频预测到占用预测
核心论文:GAIA-1 (arXiv:2309.17080,
2023)、DriveDreamer (arXiv:2309.09777, ECCV 2024)、Vista
(arXiv:2405.17398, NeurIPS 2024)、OccWorld (arXiv:2311.16038, ECCV
2024)
前置知识:上一篇:物理化世界模型
⬅️ 上一篇:笔记|世界模型(五):物理化的视频生成——让模型理解牛顿定律
➡️ 本系列完结。回到:笔记|世界模型(一):世界模型全景综述
0.
为什么自动驾驶特别需要世界模型?
上一篇讨论了如何让视频模型遵守物理定律。但在所有世界模型的应用中,自动驾驶是对物理准确性和安全性要求最高的领域——这里的"物理错误"不是视觉瑕疵,而是可能导致事故的决策失误。
假设你在开发自动驾驶系统,需要测试"行人突然从路边冲出"的场景:
真实路测:等这种场景自然发生——几万公里都遇不到一次,有安全风险
传统仿真器(CARLA
等):画面和真实世界差距太大(domain
gap),训练出的模型可能无法迁移
世界模型提供了第三条路:从真实驾驶视频中学习环境动 ...
笔记|世界模型(五):物理化的视频生成——让模型理解牛顿定律
核心论文:PhysDreamer (arXiv:2404.13026, ECCV
2024)、PhysGen (arXiv:2409.18964, ECCV 2024)、NewtonGen
(arXiv:2509.21309, 2025)、NewtonRewards (arXiv:2512.00425, 2025)
代码:stevenlsw/physgen · pandayuanyu/NewtonGen
| 前置知识:上一篇:视频生成世界模型
⬅️ 上一篇:笔记|世界模型(四):视频生成即世界模拟——从
Sora 到 Genie 与 Cosmos
➡️ 下一篇:笔记|世界模型(六):自动驾驶世界模型——从视频预测到占用预测
0. Sora
生成的球为什么不遵守牛顿定律?
上一篇我们看到,纯数据驱动的视频模型存在根本性的物理缺陷——"How Far"
论文(ICML
2025)证明它们做的是"基于案例的模仿"而非"物理规则的抽象"。
一个具体的例子:用 Sora
生成"球从桌子上滚下来"。你可能会看到球的轨迹大致合理,但仔细观察——球在桌边没有加速(无视重力),落地后弹跳角度不对,甚 ...
笔记|世界模型(四):视频生成即世界模拟——从 Sora 到 Genie 与 Cosmos
核心论文:Genie (arXiv:2402.15391, ICML
2024)、Cosmos (arXiv:2501.03575, 2025)、UniSim (arXiv:2310.06114, ICLR
2024)
前置知识:上一篇:JEPA
⬅️ 上一篇:笔记|世界模型(三):JEPA——在嵌入空间预测世界
➡️ 下一篇:笔记|世界模型(五):物理化的视频生成——让模型理解牛顿定律
0. 如果视频模型就是世界模型?
上一篇介绍了 JEPA
的哲学:"不需要画出未来,只需要理解未来。"但另一个阵营持完全相反的立场。
给一个视频生成模型一张图片和指令"向左走",它生成了一段视角向左移动的视频——走廊延伸出去,墙上的画从右侧滑入视野,地板的透视关系正确变化。这个模型"理解"了三维空间吗?它是不是已经在内部构建了某种"世界模型"?
2024 年 2 月,OpenAI 发布 Sora
时明确提出:视频生成模型是世界模拟器的有前途的路径。
这是与 JEPA 截然相反的立场——JEPA 说"不需要生成像素",Sora
说"生成像素本身就是理解世界"。
本文将梳理四个代表性的视频世界模型方案 ...
笔记|世界模型(三):JEPA——在嵌入空间预测世界
核心论文:I-JEPA (arXiv:2301.08243, CVPR
2023)、V-JEPA (arXiv:2404.08471, 2024)、V-JEPA 2 (arXiv:2506.09985,
2025)
代码:facebookresearch/ijepa
· facebookresearch/jepa
| 前置知识:上一篇:Dreamer 系列
⬅️ 上一篇:笔记|世界模型(二):Dreamer
系列——在想象中学习控制
➡️ 下一篇:笔记|世界模型(四):视频生成即世界模拟——从
Sora 到 Genie 与 Cosmos
0. 预测每片树叶的飘动是愚蠢的
上一篇介绍了 Dreamer
系列:在潜空间想象未来,用解码器重建像素来训练世界模型。DreamerV3 甚至在
Minecraft 中从零采到了钻石。但 Yann LeCun
提出了一个尖锐的质疑:为什么世界模型一定要能"画出"未来?
观察窗外的一棵树。树叶在风中随机飘动——每片叶子的具体轨迹本质上不可预测。但你能预测"树叶还会继续飘动"、"风变大了树会摇得更厉害"。你的大脑从不尝试重建每一片叶子的像素级位置,却 ...
笔记|世界模型(二):Dreamer 系列——在想象中学习控制
核心论文:Dreamer v1 (ICLR 2020)、DreamerV2 (ICLR
2021)、DreamerV3 (Nature 2025)
⬅️ 上一篇:笔记|世界模型(一):什么是世界模型?
➡️ 下一篇:笔记|世界模型(三):JEPA——在嵌入空间预测世界
一句话概括
Dreamer
是一种基于世界模型的强化学习算法:先从经验中学一个环境的"脑内模型",然后在脑子里大量练习,而不是反复与真实环境交互。DreamerV3
用同一套超参数在 150+ 个任务上均表现优异,并首次在 Minecraft
中从零采到钻石。
1. Dreamer 是怎么训练的?
1.1 训练数据
Dreamer
的训练数据来自智能体与环境交互产生的经验——每一步包含当前观测(如游戏画面)、执行的动作、获得的奖励。这些经验被存入经验回放缓冲区,训练时从中随机采样。
与监督学习不同,Dreamer
不需要人工标注数据或专家示范,数据完全来自智能体的自我探索。
1.2 基于强化学习,但换了个思路
传统的 model-free RL(如
PPO)让智能体直接在真实环境中反复试错来学习策略。问题是:每次试 ...
笔记|世界模型(一):世界模型全景综述——从认知科学到通用物理智能
系列说明:本文是世界模型系列的第一篇,也是一篇面向初学者的全景综述。本文从最直觉的类比出发,剥离了繁复的数学,带你看懂世界模型的核心架构、两大路线之争以及它的前世今生。
⬅️ 上一篇:笔记|强化学习(九):DanceGRPO
与 MixGRPO——视觉生成 GRPO 的扩展与加速
➡️ 下一篇:笔记|世界模型(二):Dreamer
系列——在想象中学习控制
闭眼踢球——大脑里的物理模拟器
闭上眼睛,想象你在踢一个足球。球从脚尖飞出,在空中画一条抛物线,弹地后滚动减速。你不需要真的看到球,就能在脑海中预测它的轨迹。这种能力,来自你大脑中的世界模型——一个关于物理世界如何运作的内部模拟器。
认知科学家 Kenneth Craik 在 1943
年就提出了这个概念:"如果生物体能在头脑中构建一个外部现实的微型模型,它就能在行动前先在模型中尝试各种方案,预测哪种最优。"
在深度学习中,世界模型就是这个内部模拟器的计算实现:一个能够预测环境在你的动作下会如何变化的神经网络。这个定义虽然简单,却引出了
AI 领域最激动人心的研究路线之一。从 DeepMind 的 Dreamer
在虚拟想象中训 ...
笔记|强化学习(十):奖励模型全景——从基础架构到 Reward Hacking 与前沿进阶
本篇是强化学习系列中聚焦奖励模型(Reward Model,
RM)的专题。我们将以前的 61 篇(基础架构)和 62
篇(进阶防攻击)合并精简,带你一文看懂:奖励模型是如何构建的?为什么大模型会“欺骗”裁判(Reward
Hacking)?如何造出更强大的生成式裁判?视觉生成的奖励又难在哪里?
⬅️ 上一篇:笔记|强化学习(十一):V-GRPO——用变分方法让扩散模型的在线
RL 变得简单
1.
奖励模型基础:从人类偏好到代理裁判
生成式任务(聊天、画图)没有绝对的标准答案。为了让强化学习(RL)能自动化更新,我们需要收集人类的相对偏好数据(A
比 B 好),训练一个神经网络 \(r_\theta(x,
y)\) 作为代理裁判。
在架构实现上,最主流的做法是基于监督微调(SFT)模型,将其词表层移除,替换为输出一维标量的线性头。由于因果掩码特性,模型通常读取序列最后一个
token
的隐藏状态作为全局语义的汇总来进行打分。在损失函数方面,我们将“\(y_w\) 比 \(y_l\) 好”转化为概率:\(P(y_w \succ y_l) = \sigma(r_\theta(x, y_ ...
笔记|强化学习(九):DanceGRPO 与 MixGRPO——视觉生成 GRPO 的扩展与加速
Flow-GRPO 证明了 GRPO
在图像生成上的有效性,但留下了两个方向的空白:任务维度(能否推广到视频?)和效率维度(全轨迹
SDE 的开销能否降低?)。
本文讲清楚两篇一脉相承的工作:DanceGRPO 解决了"广度"问题,将 GRPO
统一到 Diffusion + Flow Matching 双范式和图像+视频双模态;MixGRPO
解决了"效率"问题,用混合 ODE-SDE 和滑动窗口将训练时间砍掉 50%~71%。
⬅️ 上一篇:笔记|强化学习(八):SuperFlow
与图像生成 RL 前沿(2026)
➡️ 下一篇:笔记|强化学习(十一):V-GRPO——用变分方法让扩散模型的在线
RL 变得简单
论文: - DanceGRPO:
Unleashing GRPO on Visual Generation(ByteDance, 2025) - MixGRPO: Unlocking Flow-based
GRPO Efficiency with Mixed ODE-SDE(Tencent Hunyuan, 2025)
Part I: DanceGRPO 的理论分析 ...