本文为 RL 系列的最终篇。在第 21 篇中我们介绍了 Flow-GRPO，将 GRPO 应用于基于 Flow Matching 的图像生成。本文将介绍其后续改进 SuperFlow，以及 2026 年图像/视频生成 RL 的统一框架生态，最后回顾整个系列的完整技术脉络。

论文：SuperFlow: Training Flow Matching Models with RL on the Fly（2025.12, revised 2026.01）

Flow-GRPO 的三个遗留问题

延续之前"橘猫坐在蓝色沙发上"的例子。 回忆 Flow-GRPO 的做法：对每个 Prompt 生成 \(G\) 张图像，用奖励模型打分，计算组内相对优势，然后用裁剪策略梯度更新模型。

但在大规模实践中，这个看似完美的流程暴露出三个问题：

问题一：固定组大小导致计算浪费

Flow-GRPO 对所有 Prompt 使用相同的组大小（比如 \(G = 16\)）。但不同 Prompt 的"不确定性"差异巨大：

Prompt	模型当前水平	生成 16 张图的结果	有效性
"一只猫"（简单）	已掌握	16 张都高分，\(\sigma_R \approx 0\)	浪费
"橘猫坐蓝色沙发"（中等）	部分掌握	分数差异大，\(\sigma_R > 0\)	有效
"穿西装的猫弹钢琴"（困难）	完全不会	16 张都低分，\(\sigma_R \approx 0\)	浪费

对"已掌握"和"完全不会"的 Prompt，16 个 rollout 几乎没有产生学习信号——但每张 1024×1024 的图像需要 50 步 ODE 求解，计算代价极高。

问题二：轨迹级优势的信用分配偏差

Flow-GRPO 对整条去噪轨迹（\(t = T \to t = 0\)）使用相同的优势值 \(\hat{A}_i\)。但去噪过程的不同阶段角色截然不同：

前期（\(t\) 接近 1）：确定大致构图和主体，决策空间大，"动作噪声"高
后期（\(t\) 接近 0）：细化纹理和细节，决策空间小，"动作噪声"低

用统一的 \(\hat{A}_i\) 加权所有时间步，等于假设"选择构图方向"和"微调毛发细节"的重要性完全一样——这显然不合理。

问题三：训练后期的稳定性

Flow-GRPO 使用纯组内相对基线。在训练后期，模型质量提升导致组内奖励方差下降，优势信号趋近于零，训练可能"停滞"或因噪声主导而不稳定。

SuperFlow 的三项改进

改进一：方差感知的动态采样（Dynamic Sampling）

SuperFlow 借鉴了 SPO（Self-Play Optimization）的思想，为每个 Prompt 维护一个在线奖励追踪器 \(\hat{v}(c)\)，用 Beta 分布建模：

\[ \hat{v}(c) = \frac{\alpha(c)}{\alpha(c) + \beta(c)} \]

每次观测到奖励 \(r(c, y)\) 后，用遗忘因子 \(\rho(c)\) 更新 Beta 参数（\(\rho\) 与策略漂移程度相关，漂移大则遗忘快）。

Prompt 不确定性定义为 Bernoulli 方差的开根号：

\[ w(c) \propto \sqrt{\hat{v}(c)(1 - \hat{v}(c)) + \epsilon} \]

当 \(\hat{v}(c) \approx 0.5\) 时不确定性最大（模型"半会半不会"），\(\hat{v}(c)\) 接近 0 或 1 时不确定性最小。

动态组大小：将 Prompt 按不确定性分为 \(K\) 个区间（bin），每个 Prompt 的组大小根据其所在区间分配：

\[ m(c) = M_{\max} - b(c) + 1 \]

其中 \(b(c) \in \{1, \ldots, K\}\) 是 Prompt \(c\) 的不确定性区间编号。

用例子理解（\(M_{\max} = 24\)，\(K = 4\)）：

Prompt	\(\hat{v}(c)\)	不确定性 \(w(c)\)	bin	组大小 \(m(c)\)
"一只猫"	0.95	低	4	\(24 - 4 + 1 = 21\)
"橘猫坐蓝色沙发"	0.55	高	1	\(24 - 1 + 1 = 24\)
"穿西装猫弹钢琴"	0.05	低	4	\(24 - 4 + 1 = 21\)

同时，高不确定性的 Prompt 在 batch 采样中的权重 \(w(c)\) 也更大——更频繁地被训练到。

改进二：步级优势重估计（Step-Level Advantage Re-estimation）

SuperFlow 不再对所有时间步使用统一的轨迹级优势，而是根据每一步的"动作不确定性"（即反向 SDE 的扩散系数 \(\sigma_t\)）重新加权：

\[ \hat{A}_t = \eta \cdot \sigma_t \cdot A_\tau \]

其中 \(A_\tau\) 是轨迹级优势（来自奖励减去 Beta 追踪器基线），\(\sigma_t\) 是第 \(t\) 步的 SDE 噪声标准差，\(\eta\) 是缩放超参数。

物理直觉：\(\sigma_t\) 大的时间步（前期），模型的"自由度"高，策略的选择空间大，应该获得更大的优势加权——因为这些步骤对最终图像质量的影响更大。\(\sigma_t\) 小的时间步（后期），微调细节，策略已经高度确定，优势加权应该更小。

用例子理解（假设 10 步去噪，轨迹级优势 \(A_\tau = +1.5\)）：

时间步 \(t\)	\(\sigma_t\)	\(\hat{A}_t = \eta \sigma_t \cdot 1.5\)	含义
\(t = 10\)（从纯噪声开始）	0.8	\(1.2\eta\)	选择构图方向→高权重
\(t = 5\)（中间步）	0.3	\(0.45\eta\)	细化结构→中权重
\(t = 1\)（接近成品）	0.05	\(0.075\eta\)	调整细节→低权重

改进三：运行基线替代纯组相对

SuperFlow 用 Beta 追踪器 \(\hat{v}(c)\) 作为每 Prompt 的运行基线，而非纯粹依赖组内均值：

\[ A(c, y) = r(c, y) - \hat{v}(c) \]

然后在 batch 内做标准化。这比纯组相对更稳定，因为：

追踪器 \(\hat{v}(c)\) 综合了历史信息，不会因当前组内样本的偶然性而剧烈波动
即使当前组内所有样本的奖励都很高（\(\sigma_R \approx 0\)），只要它们高于历史追踪值，仍然能产生正向梯度

SuperFlow 的训练效果

在 SD3.5-Medium 骨干上使用 LoRA（\(r = 32\)，\(\alpha = 64\)）进行 RL 训练：

方法	GenEval 综合	OCR 准确率	PickScore
SD3.5-M（基线）	0.5814	0.5717	0.8304
Flow-GRPO	0.7829	0.7252	0.8536
Flow-SPO	0.7540	0.7652	0.8516
SuperFlow	0.8045	0.8413	0.8685

SuperFlow 在 OCR（图像中的文字渲染准确度）上提升最为显著——相比 SD3.5-M 提升了 47.2%，相比 Flow-GRPO 提升了 16.0%。这验证了步级优势重估计对细粒度任务的重要性。

训练效率方面，SuperFlow 比 Flow-GRPO 减少了 5.4%-56.3% 的训练步数和 5.2%-16.7% 的训练时间。

消融实验显示，步级优势重估计（Adv-Est）对 OCR 的贡献最大（移除后下降 16.4%），动态采样（Dyn-Samp）对训练稳定性贡献最大（移除后后期出现性能崩溃）。

2026 年图像/视频生成 RL 的统一框架

SuperFlow 之外，两个开源框架正在将图像/视频生成的 RL 训练推向工程化：

Flow-Factory

Flow-Factory 是一个模块化的统一框架，支持 GRPO、DiffusionNFT、AWM 等算法跨多种模型进行 RL 训练：

维度	支持范围
模型	Flux, Qwen-Image, WAN Video
算法	FlowGRPO, MixGRPO, CPS, AWM
奖励	PickScore, ImageReward, CLIP, 美学评分
模态	T2I（文生图）、T2V（文生视频）、I2V（图生视频）

其核心设计思想是解耦算法、模型和奖励——更换奖励函数不需要修改算法代码，更换模型不需要修改奖励逻辑。

GenRL

GenRL 覆盖 T2I、T2V、I2V 三种模态，支持 diffusion 和 rectified flow 两种范式。特点是提供了约 20 万条经过过滤的 RL 训练 Prompt，以及多节点 FSDP 分布式训练支持。

TRL v1.0（Hugging Face, 2026.04）

Hugging Face 在 2026 年 4 月正式发布 TRL v1.0，将原来的研究工具升级为生产级框架：

# TRL v1.0 统一流水线
trl sft      --model Qwen/Qwen2.5-7B --dataset my_data   # 阶段一：SFT
trl reward   --model Qwen/Qwen2.5-7B --dataset pref_data # 阶段二：奖励建模
trl grpo     --model sft_checkpoint   --reward rm_model   # 阶段三：GRPO 对齐

TRL v1.0 的三阶段流水线（SFT → Reward Modeling → Alignment）支持 DPO、GRPO、KTO 等主流对齐算法，提供统一的 CLI 和配置系统，可在各种硬件上扩展。

系列终章：从 REINFORCE 到 SuperFlow 的完整技术脉络

通过这八篇文章，我们走过了强化学习从基础理论到前沿应用的完整旅程：

篇章	主题	核心贡献	解决的问题
十六	REINFORCE → Actor-Critic	策略梯度基础	如何用梯度优化策略
十七	TRPO → PPO	裁剪 surrogate 目标	策略更新步长控制
十八	DPO	隐式奖励 + 偏好对	绕过奖励模型和 RL
十九	GRPO	组内相对优势	去除 Critic，适配大模型
二十	Flow-GRPO	连续动作空间的 GRPO	将 RL 引入图像生成
二十一	DAPO	4 项工程改进	大规模推理 RL 的稳定性
二十二	2-GRPO / f-GRPO / GIFT	GRPO 的三重理论视角	效率、散度选择、训练稳定性
二十三	SuperFlow	步级优势 + 动态采样	图像 RL 的信用分配和效率

一条清晰的演进主线：

\[ \underbrace{\text{REINFORCE}}_{\text{高方差}} \xrightarrow{\text{基线}} \underbrace{\text{Actor-Critic}}_{\text{需要 Critic}} \xrightarrow{\text{步长控制}} \underbrace{\text{PPO}}_{\text{显存翻倍}} \]

\[ \xrightarrow{\text{去 Critic}} \underbrace{\text{GRPO}}_{\text{显存友好}} \xrightarrow{\text{工程优化}} \underbrace{\text{DAPO}}_{\text{大规模可用}} \xrightarrow{\text{连续动作}} \underbrace{\text{Flow-GRPO / SuperFlow}}_{\text{图像生成 RL}} \]

\[ \xrightarrow[\text{离线旁支}]{\text{绕过 RL}} \underbrace{\text{DPO}}_{\text{稳定但有限}} \xrightarrow{\text{融合在线}} \underbrace{\text{GIFT}}_{\text{两全其美}} \]

强化学习已从一个"理论优美但工程复杂"的技术，演变为大模型训练不可或缺的核心环节。每一步都在让 RL 变得更简单、更高效、更可规模化——而这个旅程，远未结束。

下一篇：笔记｜生成模型（二十四）：DanceGRPO——视频生成的统一强化学习框架

参考资料：

SuperFlow: Training Flow Matching Models with RL on the Fly

Flow-Factory: A Unified Framework for RL in Flow-Matching Models

GenRL: Scalable RL for Generative Models

Hugging Face TRL v1.0