avatar
文章
35
标签
35
分类
2

首页
归档
标签
分类
友链
牛大帅的个人博客
首页
归档
标签
分类
友链

牛大帅的个人博客

置顶|本站文章索引
发表于2025-07-14|Tutorials
关于我 来着何人,报上姓名。俺是牛大帅,是一名三维视觉算法工程师,以前从事SLAM,现在主要从事3dgs重建,神经辐射场,图像和视频的AIGC,目前在自动驾驶领域当牛马,也可以找我交流CSGO和OW(上勾拳!)。 以后会在这边分享一些技术,或者一些杂谈。 联系方式 如果你想要与我交流,可以通过以下方式联系我: GitHub: https://github.com/chengYi-xun 邮箱: ldq4399@163.com 感谢你的阅读,希望我们可以一起学习和成长! 生成式人工智能 通用理论 笔记|生成模型(一):一些概率论的基础概念和理论 笔记|生成模型(二):生成模型的技术路线总览 笔记|生成模型(三):生成对抗理论 笔记|生成模型(四):变分自编码器理论 笔记|生成模型(五):DDPM理论 笔记|生成模型(六):DDIM理论 笔记|生成模型(七):Score-Based理论 笔记|生成模型(八):SDE统一DDPM和SMLD 笔记|生成模型(九):Classifier Guidance 理论与实现 笔记|生成模型(十):Classifier-Free Guidance 理 ...
笔记|强化学习(十一):V-GRPO——用变分方法让扩散模型的在线 RL 变得简单
发表于2026-06-11|Notes
本文为 RL 系列第十一篇。前文详细介绍了 MDP 路线的代表作(Flow-GRPO、DanceGRPO、MixGRPO),它们通过将去噪过程建模为 MDP,利用 SDE 的高斯转移核提取 \(\log\pi_\theta\)。然而,这条路线受限于 SDE 采样器、收敛效率低、算法复杂度高。V-GRPO 另辟蹊径,回归扩散模型的变分根基,用 ELBO 代理 替代 MDP 建模,实现了更简单、更快、更强的在线 RL 后训练。 ⬅️ 上一篇:笔记|强化学习(十):奖励模型全景——从基础架构到 Reward Hacking 与前沿进阶 论文:V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think(Stanford & Tsinghua, 2026.04) 代码:github.com/tang-bd/v-grpo 一句话理解 V-GRPO V-GRPO 证明了一件事:用扩散模型预训练目标(ELBO)作为 log-likelihood 的代理,配合三 ...
笔记|世界模型(六):自动驾驶世界模型——从视频预测到占用预测
发表于2026-04-06|Tutorials
核心论文:GAIA-1 (arXiv:2309.17080, 2023)、DriveDreamer (arXiv:2309.09777, ECCV 2024)、Vista (arXiv:2405.17398, NeurIPS 2024)、OccWorld (arXiv:2311.16038, ECCV 2024) 前置知识:上一篇:物理化世界模型 ⬅️ 上一篇:笔记|世界模型(五):物理化的视频生成——让模型理解牛顿定律 ➡️ 本系列完结。回到:笔记|世界模型(一):世界模型全景综述 0. 为什么自动驾驶特别需要世界模型? 上一篇讨论了如何让视频模型遵守物理定律。但在所有世界模型的应用中,自动驾驶是对物理准确性和安全性要求最高的领域——这里的"物理错误"不是视觉瑕疵,而是可能导致事故的决策失误。 假设你在开发自动驾驶系统,需要测试"行人突然从路边冲出"的场景: 真实路测:等这种场景自然发生——几万公里都遇不到一次,有安全风险 传统仿真器(CARLA 等):画面和真实世界差距太大(domain gap),训练出的模型可能无法迁移 世界模型提供了第三条路:从真实驾驶视频中学习环境动 ...
笔记|世界模型(五):物理化的视频生成——让模型理解牛顿定律
发表于2026-04-06|Tutorials
核心论文:PhysDreamer (arXiv:2404.13026, ECCV 2024)、PhysGen (arXiv:2409.18964, ECCV 2024)、NewtonGen (arXiv:2509.21309, 2025)、NewtonRewards (arXiv:2512.00425, 2025) 代码:stevenlsw/physgen · pandayuanyu/NewtonGen | 前置知识:上一篇:视频生成世界模型 ⬅️ 上一篇:笔记|世界模型(四):视频生成即世界模拟——从 Sora 到 Genie 与 Cosmos ➡️ 下一篇:笔记|世界模型(六):自动驾驶世界模型——从视频预测到占用预测 0. Sora 生成的球为什么不遵守牛顿定律? 上一篇我们看到,纯数据驱动的视频模型存在根本性的物理缺陷——"How Far" 论文(ICML 2025)证明它们做的是"基于案例的模仿"而非"物理规则的抽象"。 一个具体的例子:用 Sora 生成"球从桌子上滚下来"。你可能会看到球的轨迹大致合理,但仔细观察——球在桌边没有加速(无视重力),落地后弹跳角度不对,甚 ...
笔记|世界模型(四):视频生成即世界模拟——从 Sora 到 Genie 与 Cosmos
发表于2026-04-06|Tutorials
核心论文:Genie (arXiv:2402.15391, ICML 2024)、Cosmos (arXiv:2501.03575, 2025)、UniSim (arXiv:2310.06114, ICLR 2024) 前置知识:上一篇:JEPA ⬅️ 上一篇:笔记|世界模型(三):JEPA——在嵌入空间预测世界 ➡️ 下一篇:笔记|世界模型(五):物理化的视频生成——让模型理解牛顿定律 0. 如果视频模型就是世界模型? 上一篇介绍了 JEPA 的哲学:"不需要画出未来,只需要理解未来。"但另一个阵营持完全相反的立场。 给一个视频生成模型一张图片和指令"向左走",它生成了一段视角向左移动的视频——走廊延伸出去,墙上的画从右侧滑入视野,地板的透视关系正确变化。这个模型"理解"了三维空间吗?它是不是已经在内部构建了某种"世界模型"? 2024 年 2 月,OpenAI 发布 Sora 时明确提出:视频生成模型是世界模拟器的有前途的路径。 这是与 JEPA 截然相反的立场——JEPA 说"不需要生成像素",Sora 说"生成像素本身就是理解世界"。 本文将梳理四个代表性的视频世界模型方案 ...
笔记|世界模型(三):JEPA——在嵌入空间预测世界
发表于2026-04-06|Tutorials
核心论文:I-JEPA (arXiv:2301.08243, CVPR 2023)、V-JEPA (arXiv:2404.08471, 2024)、V-JEPA 2 (arXiv:2506.09985, 2025) 代码:facebookresearch/ijepa · facebookresearch/jepa | 前置知识:上一篇:Dreamer 系列 ⬅️ 上一篇:笔记|世界模型(二):Dreamer 系列——在想象中学习控制 ➡️ 下一篇:笔记|世界模型(四):视频生成即世界模拟——从 Sora 到 Genie 与 Cosmos 0. 预测每片树叶的飘动是愚蠢的 上一篇介绍了 Dreamer 系列:在潜空间想象未来,用解码器重建像素来训练世界模型。DreamerV3 甚至在 Minecraft 中从零采到了钻石。但 Yann LeCun 提出了一个尖锐的质疑:为什么世界模型一定要能"画出"未来? 观察窗外的一棵树。树叶在风中随机飘动——每片叶子的具体轨迹本质上不可预测。但你能预测"树叶还会继续飘动"、"风变大了树会摇得更厉害"。你的大脑从不尝试重建每一片叶子的像素级位置,却 ...
笔记|世界模型(二):Dreamer 系列——在想象中学习控制
发表于2026-04-06|Tutorials
核心论文:Dreamer v1 (ICLR 2020)、DreamerV2 (ICLR 2021)、DreamerV3 (Nature 2025) ⬅️ 上一篇:笔记|世界模型(一):什么是世界模型? ➡️ 下一篇:笔记|世界模型(三):JEPA——在嵌入空间预测世界 一句话概括 Dreamer 是一种基于世界模型的强化学习算法:先从经验中学一个环境的"脑内模型",然后在脑子里大量练习,而不是反复与真实环境交互。DreamerV3 用同一套超参数在 150+ 个任务上均表现优异,并首次在 Minecraft 中从零采到钻石。 1. Dreamer 是怎么训练的? 1.1 训练数据 Dreamer 的训练数据来自智能体与环境交互产生的经验——每一步包含当前观测(如游戏画面)、执行的动作、获得的奖励。这些经验被存入经验回放缓冲区,训练时从中随机采样。 与监督学习不同,Dreamer 不需要人工标注数据或专家示范,数据完全来自智能体的自我探索。 1.2 基于强化学习,但换了个思路 传统的 model-free RL(如 PPO)让智能体直接在真实环境中反复试错来学习策略。问题是:每次试 ...
笔记|世界模型(一):世界模型全景综述——从认知科学到通用物理智能
发表于2026-04-06|Tutorials
系列说明:本文是世界模型系列的第一篇,也是一篇面向初学者的全景综述。本文从最直觉的类比出发,剥离了繁复的数学,带你看懂世界模型的核心架构、两大路线之争以及它的前世今生。 ⬅️ 上一篇:笔记|强化学习(九):DanceGRPO 与 MixGRPO——视觉生成 GRPO 的扩展与加速 ➡️ 下一篇:笔记|世界模型(二):Dreamer 系列——在想象中学习控制 闭眼踢球——大脑里的物理模拟器 闭上眼睛,想象你在踢一个足球。球从脚尖飞出,在空中画一条抛物线,弹地后滚动减速。你不需要真的看到球,就能在脑海中预测它的轨迹。这种能力,来自你大脑中的世界模型——一个关于物理世界如何运作的内部模拟器。 认知科学家 Kenneth Craik 在 1943 年就提出了这个概念:"如果生物体能在头脑中构建一个外部现实的微型模型,它就能在行动前先在模型中尝试各种方案,预测哪种最优。" 在深度学习中,世界模型就是这个内部模拟器的计算实现:一个能够预测环境在你的动作下会如何变化的神经网络。这个定义虽然简单,却引出了 AI 领域最激动人心的研究路线之一。从 DeepMind 的 Dreamer 在虚拟想象中训 ...
笔记|强化学习(十):奖励模型全景——从基础架构到 Reward Hacking 与前沿进阶
发表于2026-04-05|Notes
本篇是强化学习系列中聚焦奖励模型(Reward Model, RM)的专题。我们将以前的 61 篇(基础架构)和 62 篇(进阶防攻击)合并精简,带你一文看懂:奖励模型是如何构建的?为什么大模型会“欺骗”裁判(Reward Hacking)?如何造出更强大的生成式裁判?视觉生成的奖励又难在哪里? ⬅️ 上一篇:笔记|强化学习(十一):V-GRPO——用变分方法让扩散模型的在线 RL 变得简单 1. 奖励模型基础:从人类偏好到代理裁判 生成式任务(聊天、画图)没有绝对的标准答案。为了让强化学习(RL)能自动化更新,我们需要收集人类的相对偏好数据(A 比 B 好),训练一个神经网络 \(r_\theta(x, y)\) 作为代理裁判。 在架构实现上,最主流的做法是基于监督微调(SFT)模型,将其词表层移除,替换为输出一维标量的线性头。由于因果掩码特性,模型通常读取序列最后一个 token 的隐藏状态作为全局语义的汇总来进行打分。在损失函数方面,我们将“\(y_w\) 比 \(y_l\) 好”转化为概率:\(P(y_w \succ y_l) = \sigma(r_\theta(x, y_ ...
笔记|强化学习(九):DanceGRPO 与 MixGRPO——视觉生成 GRPO 的扩展与加速
发表于2026-04-05|Notes
Flow-GRPO 证明了 GRPO 在图像生成上的有效性,但留下了两个方向的空白:任务维度(能否推广到视频?)和效率维度(全轨迹 SDE 的开销能否降低?)。 本文讲清楚两篇一脉相承的工作:DanceGRPO 解决了"广度"问题,将 GRPO 统一到 Diffusion + Flow Matching 双范式和图像+视频双模态;MixGRPO 解决了"效率"问题,用混合 ODE-SDE 和滑动窗口将训练时间砍掉 50%~71%。 ⬅️ 上一篇:笔记|强化学习(八):SuperFlow 与图像生成 RL 前沿(2026) ➡️ 下一篇:笔记|强化学习(十一):V-GRPO——用变分方法让扩散模型的在线 RL 变得简单 论文: - DanceGRPO: Unleashing GRPO on Visual Generation(ByteDance, 2025) - MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE(Tencent Hunyuan, 2025) Part I: DanceGRPO 的理论分析 ...
1234
avatar
牛大帅
欢迎来到我的博客
文章
35
标签
35
分类
2
Follow Me
公告
欢迎来到牛大帅的猪舍~(昼伏夜出型)
最新文章
笔记|强化学习(十一):V-GRPO——用变分方法让扩散模型的在线 RL 变得简单2026-06-11
笔记|世界模型(六):自动驾驶世界模型——从视频预测到占用预测2026-04-06
笔记|世界模型(五):物理化的视频生成——让模型理解牛顿定律2026-04-06
笔记|世界模型(四):视频生成即世界模拟——从 Sora 到 Genie 与 Cosmos2026-04-06
笔记|世界模型(三):JEPA——在嵌入空间预测世界2026-04-06
分类
  • Notes28
  • Tutorials7
标签
Vista Generative models Generative models theory RSSM OccWorld DriveDreamer Self-Supervised Learning Diffusion Models Survey Cosmos 自我介绍 Generative Model Physics-Grounded Genie DPO Diffusion models Video Generation Reinforcement Learning GAIA-1 Stable Diffusion NewtonGen thinking Flow Matching Deep learning Autonomous Driving JEPA Dreamer Flux PhysGen Sora Model-based RL PhysDreamer Latent Space World Model V-JEPA
归档
  • 六月 20261
  • 四月 202611
  • 八月 202521
  • 七月 20252
网站资讯
文章数目 :
35
已运行时间 :
本站访客数 :
本站总访问量 :
最后更新时间 :
©2025 - 2026 By 牛大帅
框架 Hexo|主题 Butterfly