标签: Reinforcement Learning | 牛大帅的个人博客

标签 - Reinforcement Learning

2026

2026-06-11

笔记｜强化学习（十一）：V-GRPO——用变分方法让扩散模型的在线 RL 变得简单

2026-04-05

笔记｜强化学习（十）：奖励模型全景——从基础架构到 Reward Hacking 与前沿进阶

2026-04-05

笔记｜强化学习（九）：DanceGRPO 与 MixGRPO——视觉生成 GRPO 的扩展与加速

2026-04-05

笔记｜强化学习（八）：SuperFlow 与图像生成 RL 前沿（2026）

2026-04-05

笔记｜强化学习（七）：GRPO 的三重面孔——从 2-GRPO 到 f-GRPO 与 GIFT

2026-04-05

笔记｜强化学习（六）：DAPO：从 GRPO 到大规模推理 RL 的工程实践

2025

2025-08-20

笔记｜强化学习（五）：Flow-GRPO 与图像生成应用（基于 Flux 的代码解析）

2025-08-19

笔记｜强化学习（四）：大模型在线 RL 破局者：GRPO 算法详解

2025-08-18

笔记｜强化学习（三）：大模型对齐的另一条路：DPO (Direct Preference Optimization)

2025-08-17

笔记｜强化学习（二）：信任区域与近端策略优化 (从 TRPO 到 PPO)