avatar
文章
35
标签
35
分类
2

首页
归档
标签
分类
友链
牛大帅的个人博客
首页
归档
标签
分类
友链

Reinforcement Learning

标签 - Reinforcement Learning
2026
2026-06-11
笔记|强化学习(十一):V-GRPO——用变分方法让扩散模型的在线 RL 变得简单
2026-04-05
笔记|强化学习(十):奖励模型全景——从基础架构到 Reward Hacking 与前沿进阶
2026-04-05
笔记|强化学习(九):DanceGRPO 与 MixGRPO——视觉生成 GRPO 的扩展与加速
2026-04-05
笔记|强化学习(八):SuperFlow 与图像生成 RL 前沿(2026)
2026-04-05
笔记|强化学习(七):GRPO 的三重面孔——从 2-GRPO 到 f-GRPO 与 GIFT
2026-04-05
笔记|强化学习(六):DAPO:从 GRPO 到大规模推理 RL 的工程实践
2025
2025-08-20
笔记|强化学习(五):Flow-GRPO 与图像生成应用(基于 Flux 的代码解析)
2025-08-19
笔记|强化学习(四):大模型在线 RL 破局者:GRPO 算法详解
2025-08-18
笔记|强化学习(三):大模型对齐的另一条路:DPO (Direct Preference Optimization)
2025-08-17
笔记|强化学习(二):信任区域与近端策略优化 (从 TRPO 到 PPO)
12
avatar
牛大帅
欢迎来到我的博客
文章
35
标签
35
分类
2
Follow Me
公告
欢迎来到牛大帅的猪舍~(昼伏夜出型)
最新文章
笔记|强化学习(十一):V-GRPO——用变分方法让扩散模型的在线 RL 变得简单2026-06-11
笔记|世界模型(六):自动驾驶世界模型——从视频预测到占用预测2026-04-06
笔记|世界模型(五):物理化的视频生成——让模型理解牛顿定律2026-04-06
笔记|世界模型(四):视频生成即世界模拟——从 Sora 到 Genie 与 Cosmos2026-04-06
笔记|世界模型(三):JEPA——在嵌入空间预测世界2026-04-06
分类
  • Notes28
  • Tutorials7
标签
Vista Generative models Generative models theory RSSM OccWorld DriveDreamer Self-Supervised Learning Diffusion Models Survey Cosmos 自我介绍 Generative Model Physics-Grounded Genie DPO Diffusion models Video Generation Reinforcement Learning GAIA-1 Stable Diffusion NewtonGen thinking Flow Matching Deep learning Autonomous Driving JEPA Dreamer Flux PhysGen Sora Model-based RL PhysDreamer Latent Space World Model V-JEPA
归档
  • 六月 20261
  • 四月 202611
  • 八月 202521
  • 七月 20252
网站资讯
文章数目 :
35
已运行时间 :
本站访客数 :
本站总访问量 :
最后更新时间 :
©2025 - 2026 By 牛大帅
框架 Hexo|主题 Butterfly