牛大帅的个人博客

四月 2026

文章总览 - 11

2026

2026-04-05

笔记｜强化学习（六）：DAPO：从 GRPO 到大规模推理 RL 的工程实践

12

牛大帅

欢迎来到我的博客

公告

欢迎来到牛大帅的猪舍~（昼伏夜出型）

最新文章

笔记｜强化学习（十一）：V-GRPO——用变分方法让扩散模型的在线 RL 变得简单2026-06-11

笔记｜世界模型（六）：自动驾驶世界模型——从视频预测到占用预测2026-04-06

笔记｜世界模型（五）：物理化的视频生成——让模型理解牛顿定律2026-04-06

笔记｜世界模型（四）：视频生成即世界模拟——从 Sora 到 Genie 与 Cosmos2026-04-06

笔记｜世界模型（三）：JEPA——在嵌入空间预测世界2026-04-06

分类

Notes28
Tutorials7

标签

Vista Generative models Generative models theory RSSM OccWorld DriveDreamer Self-Supervised Learning Diffusion Models Survey Cosmos 自我介绍 Generative Model Physics-Grounded Genie DPO Diffusion models Video Generation Reinforcement Learning GAIA-1 Stable Diffusion NewtonGen thinking Flow Matching Deep learning Autonomous Driving JEPA Dreamer Flux PhysGen Sora Model-based RL PhysDreamer Latent Space World Model V-JEPA

归档

六月 20261
四月 202611
八月 202521
七月 20252

网站资讯

文章数目 :

35

已运行时间 :

本站访客数 :

本站总访问量 :

最后更新时间 :

©2025 - 2026 By 牛大帅

框架 Hexo|主题 Butterfly