牛大帅的个人博客

笔记｜强化学习（八）：SuperFlow 与图像生成 RL 前沿（2026）

发表于2026-04-05|Notes

本文为 RL 系列的图像生成篇。在第五篇中我们介绍了 Flow-GRPO，将 GRPO 应用于基于 Flow Matching 的图像生成。本文将介绍其后续改进 SuperFlow，以及 2026 年图像/视频生成 RL 的统一框架生态，最后回顾整个系列的完整技术脉络。 ⬅️ 上一篇：笔记｜强化学习（七）：GRPO 的三重面孔——从 2-GRPO 到 f-GRPO 与 GIFT ➡️ 下一篇：笔记｜强化学习（九）：DanceGRPO 与 MixGRPO——视觉生成 GRPO 的扩展与加速论文：SuperFlow: Training Flow Matching Models with RL on the Fly（2025.12, revised 2026.01） Flow-GRPO 的三个遗留问题延续之前"橘猫坐在蓝色沙发上"的例子。 Flow-GRPO 的做法是：对每个 Prompt 生成 \(G\) 张图像，用奖励模型打分，算出组内相对优势，然后用策略梯度更新模型。这个流程在大规模训练时暴露出三个问题：问题一：固定组大小导致计算浪费。所有 Prompt 都生成固定 \ ...

笔记｜强化学习（七）：GRPO 的三重面孔——从 2-GRPO 到 f-GRPO 与 GIFT

发表于2026-04-05|Notes

本文为 RL 系列第七篇。上一篇介绍了 DAPO 的四大工程改进。本文从理论角度出发，剖析 GRPO 的数学本质：为什么 GRPO 其实是在做 DPO？为什么 2 个 rollout 就够了？如何从 KL 散度推广到任意 f-散度？最后介绍融合了 GRPO 和 DPO 优势的 GIFT 算法。 ⬅️ 上一篇：笔记｜强化学习（六）：DAPO：从 GRPO 到大规模推理 RL 的工程实践 ➡️ 下一篇：笔记｜强化学习（八）：SuperFlow 与图像生成 RL 前沿（2026）论文： It Takes Two: Your GRPO Is Secretly DPO（2025.10） f-GRPO and Beyond: Divergence-Based RL for General LLM Alignment（2026.02） GIFT: Group-relative Implicit Fine Tuning（2025.10）从一个令人意外的实验结果说起在前几篇中，我们强调"组越大（\(G = 16\) 或 \(64\)），优势估计越准确，训练效果越好"。但 2025 年 ...

笔记｜强化学习（六）：DAPO：从 GRPO 到大规模推理 RL 的工程实践

发表于2026-04-05|Notes

本文为 RL 系列的第六篇。在上几篇中我们推导了 GRPO（组相对策略优化，Group Relative Policy Optimization）的核心思想并将其应用于图像生成。本文将介绍 GRPO 的工程增强版——DAPO（解耦裁剪与动态采样策略优化，Decoupled clip and dynAmic samPling policy Optimization），它是字节跳动 Seed 团队与清华 AIR 联合提出的大规模 LLM 强化学习算法，用 Qwen2.5-32B 基座模型在 AIME 2024 上达到 50 分（超过 DeepSeek-R1-Zero 的 47 分），且训练步数减少 50%。 ⬅️ 上一篇：笔记｜强化学习（五）：Flow-GRPO 与图像生成应用（基于 Flux 的代码解析） ➡️ 下一篇：笔记｜强化学习（七）：GRPO 的三重面孔——从 2-GRPO 到 f-GRPO 与 GIFT 论文：DAPO: An Open-Source LLM Reinforcement Learning System at Scale（2025.03）先看问题：GRP ...

笔记｜强化学习（五）：Flow-GRPO 与图像生成应用（基于 Flux 的代码解析）

发表于2025-08-20|Notes

本文为 RL 系列第五篇。在完整梳理了从 REINFORCE 到 PPO、DPO，再到最新 GRPO 的演进路线后，我们将目光转向图像生成领域。本文将结合 flow_grpo 开源代码库，深入解析如何将 GRPO 算法应用于基于 Flow Matching 的图像生成模型（如 Flux）的微调中。方法学与系统实验见论文 Flow-GRPO: Training Flow Matching Models via Online RL（文中以 SD3.5 等为主报告；仓库实现覆盖 Flux）。 ⬅️ 上一篇：笔记｜强化学习（四）：大模型在线 RL 破局者：GRPO 算法详解 ➡️ 下一篇：笔记｜强化学习（六）：DAPO：从 GRPO 到大规模推理 RL 的工程实践图像生成中的强化学习先用一个例子理解为什么需要 RL。假设你用一个 Flux 模型生成图像，给定 Prompt："一只橘猫坐在蓝色沙发上"。模型可能生成以下几种结果：生成结果问题一只白色猫坐在蓝色沙发上颜色不对（应该是橘猫）一只橘猫站在蓝色沙发旁边动作不对（应该是"坐在"）一只橘猫坐在蓝色 ...

笔记｜强化学习（四）：大模型在线 RL 破局者：GRPO 算法详解

发表于2025-08-19|Notes

本文为系列第四篇。在了解了 PPO 的显存痛点和 DPO 的离线局限性后，我们终于迎来了目前大模型在线 RL 的最前沿破局者——GRPO（Group Relative Policy Optimization）。本文将详细推导 GRPO 的核心思想，看它是如何优雅地丢弃 Critic 网络，实现高效的在线强化学习的。 ⬅️ 上一篇：笔记｜强化学习（三）：大模型对齐的另一条路：DPO (Direct Preference Optimization) ➡️ 下一篇：笔记｜强化学习（五）：Flow-GRPO 与图像生成应用（基于 Flux 的代码解析）在线 RL 的不可替代性与 Critic 的累赘正如上一篇所言，DPO 虽然简单省显存，但它只能"死记硬背"人类给出的标准答案（离线学习）。为了让模型产生"顿悟"和自我进化，我们必须回归在线强化学习（Online RL）。然而，PPO 算法中的 Critic 网络（价值网络）成为了最大的绊脚石。对于百亿参数的大模型，多维护一个 Critic 意味着显存开销直接翻倍。核心思考出发点：既然 Critic 只是为了给出一个"及格线"（基准值 ...

笔记｜强化学习（三）：大模型对齐的另一条路：DPO (Direct Preference Optimization)

发表于2025-08-18|Notes

本文为系列第三篇。在上一篇中，我们提到 PPO 算法虽然稳定，但在百亿参数大模型微调时面临着极大的显存压力（需要同时维护 Actor 和 Critic 模型）。为了解决这一痛点，斯坦福大学在 2023 年提出了一条完全不同于在线 RL 的路线——DPO。本文将简要介绍 DPO 算法，作为后续回归 RL 路线（GRPO）的对比铺垫。 ⬅️ 上一篇：笔记｜强化学习（二）：信任区域与近端策略优化 (从 TRPO 到 PPO) ➡️ 下一篇：笔记｜强化学习（四）：大模型在线 RL 破局者：GRPO 算法详解 PPO 的繁琐与显存危机：大模型吃不消了先看例子：假设我们要用 RLHF 微调一个大模型，让它学会写出更好的代码。传统流程分三步： SFT：用大量代码问答数据做监督微调——教模型"怎么写代码"。 RM：给同一道编程题生成两份代码（A 和 B），让人类标注哪份更好，训练一个"代码评审员"（奖励模型）。 RL：让模型自己去写代码，"评审员"给分，模型根据分数用 PPO 算法调整自己。这个流程极其繁琐，且在 PPO 阶段，显存中需要同时驻留四个庞大的模型： Actor 模型（正在训 ...

笔记｜强化学习（二）：信任区域与近端策略优化 (从 TRPO 到 PPO)

发表于2025-08-17|Notes

本文为系列第二篇。在上一篇中，我们介绍了策略梯度和 Actor-Critic 架构。然而，包括 REINFORCE 在内的所有基础策略梯度方法，都存在更新步长难以控制、训练不稳定的核心困境。本文将首先深入剖析这一不稳定性的三个层面，然后详细推导如何通过限制策略更新幅度来保证训练的单调递增，从 TRPO 的数学思想一路演进到目前大模型 RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）的基石——PPO 算法。 ⬅️ 上一篇：笔记｜强化学习（一续）：从 REINFORCE 到 Actor-Critic ➡️ 下一篇：笔记｜强化学习（三）：大模型对齐的另一条路：DPO (Direct Preference Optimization) 核心摘要： PPO 的核心是根据 TRPO 发展而来的。TRPO 在 Actor-Critic 的基础上，通过限制更新步长（引入 KL 散度约束），使得策略更新单调递增。其最大的贡献在于从数学上精确求解了参数空间与分布空间（策略变化）的映射关系（即 Fisher 信息矩阵，它是 KL 散度 ...

笔记｜强化学习（一续）：从 REINFORCE 到 Actor-Critic

发表于2025-08-16|Notes

本文承接上一篇的策略梯度理论，介绍策略梯度的三种实际实现——从最朴素的 REINFORCE 到引入基线的版本，再到 Actor-Critic 架构——并推导广义优势估计（GAE），为后续深入理解 PPO 和 GRPO 打下坚实的算法基础。 ⬅️ 上一篇：笔记｜强化学习（一）：强化学习基础与策略梯度 ➡️ 下一篇：笔记｜强化学习（二）：信任区域与近端策略优化 (从 TRPO 到 PPO) 在上一篇中，我们通过策略梯度定理推导出了梯度公式 \(\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_t \gamma^t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot Q^{\pi_\theta}(s_t, a_t)\right]\)，并证明了为什么梯度中会出现 \(\log\) 概率。从 REINFORCE 到 Actor-Critic：算法的演进虽然我们在理论上推导出了应该用优势函数 \(A(s_t, a_t)\) 来更新策略，但在实际写代码时，我们无法直 ...

笔记｜强化学习（一）：强化学习基础与策略梯度

发表于2025-08-16|Notes

本文为大模型对齐与强化学习系列的第一篇，主要回顾强化学习（RL）的基础概念，并严格推导策略梯度定理，为后续深入理解 REINFORCE、Actor-Critic、PPO 和 GRPO 打下坚实的理论基础。 ⬅️ 上一篇：笔记｜生成模型（十五）：Flux 架构解析 ➡️ 下一篇：笔记｜强化学习（一续）：从 REINFORCE 到 Actor-Critic 强化学习基础概念：从"训狗"说起对于纯小白读者来说，理解强化学习（Reinforcement Learning, RL）最直观的例子就是"训狗"。智能体（Agent）：就是那只狗（在 AI 中就是我们的模型）。环境（Environment）：狗所处的现实世界。状态（State）：狗当前看到的画面、听到的口令（比如你喊"坐下"）。动作（Action）：狗做出的反应（比如坐下、趴下、或者跑开）。奖励（Reward）：如果狗做对了，你给它一块肉（正奖励）；做错了，你呵斥它（负奖励或零奖励）。强化学习的核心目标，就是让这只狗（模型）在不断的"尝试-犯错-获得奖励"的过程中，自己摸索出一条规律：在什么情况下，做什么动作，能吃 ...

笔记｜生成模型（十五）：Flux 架构解析

发表于2025-08-15|Notes

本文为生成模型系列第十五篇。继 Stable Diffusion 3（SD3）之后，由原 SD 核心团队创立的 Black Forest Labs 推出了 Flux 系列模型。Flux 沿用了 Flow Matching 与 Diffusion Transformer（DiT）的底层框架，但在特征对齐、位置编码、网络结构以及蒸馏策略上进行了深度的重构与优化。本文将从数学原理与网络设计的角度，全面解析 Flux 的核心架构。 ⬅️ 上一篇：笔记｜生成模型（十四）：Stable Diffusion 3 架构解析 (MMDiT) ➡️ 下一篇：笔记｜强化学习（一）：强化学习基础与策略梯度一、引言：Flux 的定位与变体在 2024 年 8 月发布时，FLUX.1 是开源社区规模最大的文本到图像（Text-to-Image）生成模型之一 [1]。相比于 2B 参数量级的 SD3，FLUX.1 将 Transformer 骨干网络的参数量大幅扩展至 12B（120 亿）。相关研究表明，这种对模型容量的暴力扩展（Scaling up）能够显著提升模型对复杂物理规律、空间关系以及长文本指令 ...