笔记|强化学习(八):SuperFlow 与图像生成 RL 前沿(2026)
本文为 RL 系列的图像生成篇。在第五篇中我们介绍了 Flow-GRPO,将 GRPO
应用于基于 Flow Matching 的图像生成。本文将介绍其后续改进
SuperFlow,以及 2026 年图像/视频生成 RL
的统一框架生态,最后回顾整个系列的完整技术脉络。
⬅️ 上一篇:笔记|强化学习(七):GRPO
的三重面孔——从 2-GRPO 到 f-GRPO 与 GIFT
➡️ 下一篇:笔记|强化学习(九):DanceGRPO
与 MixGRPO——视觉生成 GRPO 的扩展与加速
论文:SuperFlow: Training
Flow Matching Models with RL on the Fly(2025.12, revised
2026.01)
Flow-GRPO 的三个遗留问题
延续之前"橘猫坐在蓝色沙发上"的例子。 Flow-GRPO
的做法是:对每个 Prompt 生成 \(G\)
张图像,用奖励模型打分,算出组内相对优势,然后用策略梯度更新模型。这个流程在大规模训练时暴露出三个问题:
问题一:固定组大小导致计算浪费。 所有 Prompt
都生成固定 \ ...
笔记|强化学习(七):GRPO 的三重面孔——从 2-GRPO 到 f-GRPO 与 GIFT
本文为 RL 系列第七篇。上一篇介绍了 DAPO
的四大工程改进。本文从理论角度出发,剖析 GRPO 的数学本质:为什么 GRPO
其实是在做 DPO?为什么 2 个 rollout 就够了?如何从 KL 散度推广到任意
f-散度?最后介绍融合了 GRPO 和 DPO 优势的 GIFT 算法。
⬅️ 上一篇:笔记|强化学习(六):DAPO:从 GRPO
到大规模推理 RL 的工程实践
➡️ 下一篇:笔记|强化学习(八):SuperFlow
与图像生成 RL 前沿(2026)
论文:
It Takes Two: Your GRPO
Is Secretly DPO(2025.10)
f-GRPO and Beyond:
Divergence-Based RL for General LLM Alignment(2026.02)
GIFT: Group-relative
Implicit Fine Tuning(2025.10)
从一个令人意外的实验结果说起
在前几篇中,我们强调"组越大(\(G =
16\) 或 \(64\)),优势估计越准确,训练效果越好"。但
2025 年 ...
笔记|强化学习(六):DAPO:从 GRPO 到大规模推理 RL 的工程实践
本文为 RL 系列的第六篇。在上几篇中我们推导了
GRPO(组相对策略优化,Group Relative Policy
Optimization)的核心思想并将其应用于图像生成。本文将介绍 GRPO
的工程增强版——DAPO(解耦裁剪与动态采样策略优化,Decoupled
clip and dynAmic samPling policy
Optimization),它是字节跳动 Seed 团队与清华 AIR
联合提出的大规模 LLM 强化学习算法,用 Qwen2.5-32B 基座模型在 AIME 2024
上达到 50 分(超过 DeepSeek-R1-Zero 的 47 分),且训练步数减少 50%。
⬅️ 上一篇:笔记|强化学习(五):Flow-GRPO
与图像生成应用(基于 Flux 的代码解析)
➡️ 下一篇:笔记|强化学习(七):GRPO
的三重面孔——从 2-GRPO 到 f-GRPO 与 GIFT
论文:DAPO: An Open-Source
LLM Reinforcement Learning System at Scale(2025.03)
先看问题:GRP ...
笔记|强化学习(五):Flow-GRPO 与图像生成应用(基于 Flux 的代码解析)
本文为 RL 系列第五篇。在完整梳理了从 REINFORCE 到 PPO、DPO,再到最新
GRPO 的演进路线后,我们将目光转向图像生成领域。本文将结合
flow_grpo 开源代码库,深入解析如何将 GRPO 算法应用于基于
Flow Matching 的图像生成模型(如 Flux)的微调中。方法学与系统实验见论文
Flow-GRPO: Training Flow
Matching Models via Online RL(文中以 SD3.5
等为主报告;仓库实现覆盖 Flux)。
⬅️ 上一篇:笔记|强化学习(四):大模型在线 RL
破局者:GRPO 算法详解
➡️ 下一篇:笔记|强化学习(六):DAPO:从 GRPO
到大规模推理 RL 的工程实践
图像生成中的强化学习
先用一个例子理解为什么需要 RL。
假设你用一个 Flux 模型生成图像,给定
Prompt:"一只橘猫坐在蓝色沙发上"。模型可能生成以下几种结果:
生成结果
问题
一只白色猫坐在蓝色沙发上
颜色不对(应该是橘猫)
一只橘猫站在蓝色沙发旁边
动作不对(应该是"坐在")
一只橘猫坐在蓝色 ...
笔记|强化学习(四):大模型在线 RL 破局者:GRPO 算法详解
本文为系列第四篇。在了解了 PPO 的显存痛点和 DPO
的离线局限性后,我们终于迎来了目前大模型在线 RL
的最前沿破局者——GRPO(Group Relative Policy
Optimization)。本文将详细推导 GRPO 的核心思想,看它是如何优雅地丢弃
Critic 网络,实现高效的在线强化学习的。
⬅️ 上一篇:笔记|强化学习(三):大模型对齐的另一条路:DPO
(Direct Preference Optimization)
➡️ 下一篇:笔记|强化学习(五):Flow-GRPO
与图像生成应用(基于 Flux 的代码解析)
在线 RL 的不可替代性与
Critic 的累赘
正如上一篇所言,DPO
虽然简单省显存,但它只能"死记硬背"人类给出的标准答案(离线学习)。为了让模型产生"顿悟"和自我进化,我们必须回归在线强化学习(Online
RL)。
然而,PPO 算法中的 Critic
网络(价值网络)成为了最大的绊脚石。对于百亿参数的大模型,多维护一个
Critic 意味着显存开销直接翻倍。
核心思考出发点:既然 Critic
只是为了给出一个"及格线"(基准值 ...
笔记|强化学习(三):大模型对齐的另一条路:DPO (Direct Preference Optimization)
本文为系列第三篇。在上一篇中,我们提到 PPO
算法虽然稳定,但在百亿参数大模型微调时面临着极大的显存压力(需要同时维护
Actor 和 Critic 模型)。为了解决这一痛点,斯坦福大学在 2023
年提出了一条完全不同于在线 RL 的路线——DPO。本文将简要介绍 DPO
算法,作为后续回归 RL 路线(GRPO)的对比铺垫。
⬅️ 上一篇:笔记|强化学习(二):信任区域与近端策略优化
(从 TRPO 到 PPO)
➡️ 下一篇:笔记|强化学习(四):大模型在线 RL
破局者:GRPO 算法详解
PPO
的繁琐与显存危机:大模型吃不消了
先看例子:假设我们要用 RLHF
微调一个大模型,让它学会写出更好的代码。传统流程分三步:
SFT:用大量代码问答数据做监督微调——教模型"怎么写代码"。
RM:给同一道编程题生成两份代码(A 和
B),让人类标注哪份更好,训练一个"代码评审员"(奖励模型)。
RL:让模型自己去写代码,"评审员"给分,模型根据分数用
PPO 算法调整自己。
这个流程极其繁琐,且在 PPO
阶段,显存中需要同时驻留四个庞大的模型:
Actor
模型(正在训 ...
笔记|强化学习(二):信任区域与近端策略优化 (从 TRPO 到 PPO)
本文为系列第二篇。在上一篇中,我们介绍了策略梯度和 Actor-Critic
架构。然而,包括 REINFORCE
在内的所有基础策略梯度方法,都存在更新步长难以控制、训练不稳定的核心困境。本文将首先深入剖析这一不稳定性的三个层面,然后详细推导如何通过限制策略更新幅度来保证训练的单调递增,从
TRPO 的数学思想一路演进到目前大模型 RLHF(Reinforcement Learning from
Human Feedback,基于人类反馈的强化学习)的基石——PPO 算法。
⬅️ 上一篇:笔记|强化学习(一续):从
REINFORCE 到 Actor-Critic
➡️ 下一篇:笔记|强化学习(三):大模型对齐的另一条路:DPO
(Direct Preference Optimization)
核心摘要: PPO 的核心是根据 TRPO 发展而来的。TRPO 在
Actor-Critic 的基础上,通过限制更新步长(引入 KL
散度约束),使得策略更新单调递增。其最大的贡献在于从数学上精确求解了参数空间与分布空间(策略变化)的映射关系(即
Fisher 信息矩阵,它是 KL
散度 ...
笔记|强化学习(一续):从 REINFORCE 到 Actor-Critic
本文承接上一篇的策略梯度理论,介绍策略梯度的三种实际实现——从最朴素的
REINFORCE 到引入基线的版本,再到 Actor-Critic
架构——并推导广义优势估计(GAE),为后续深入理解 PPO 和 GRPO
打下坚实的算法基础。
⬅️ 上一篇:笔记|强化学习(一):强化学习基础与策略梯度
➡️ 下一篇:笔记|强化学习(二):信任区域与近端策略优化
(从 TRPO 到 PPO)
在上一篇中,我们通过策略梯度定理推导出了梯度公式
\(\nabla_\theta J(\theta) = \mathbb{E}_{\tau
\sim \pi_\theta}\left[\sum_t \gamma^t \nabla_\theta \log
\pi_\theta(a_t|s_t) \cdot Q^{\pi_\theta}(s_t,
a_t)\right]\),并证明了为什么梯度中会出现 \(\log\) 概率。
从 REINFORCE 到
Actor-Critic:算法的演进
虽然我们在理论上推导出了应该用优势函数 \(A(s_t, a_t)\)
来更新策略,但在实际写代码时,我们无法直 ...
笔记|强化学习(一):强化学习基础与策略梯度
本文为大模型对齐与强化学习系列的第一篇,主要回顾强化学习(RL)的基础概念,并严格推导策略梯度定理,为后续深入理解
REINFORCE、Actor-Critic、PPO 和 GRPO 打下坚实的理论基础。
⬅️ 上一篇:笔记|生成模型(十五):Flux
架构解析
➡️ 下一篇:笔记|强化学习(一续):从
REINFORCE 到 Actor-Critic
强化学习基础概念:从"训狗"说起
对于纯小白读者来说,理解强化学习(Reinforcement Learning,
RL)最直观的例子就是"训狗"。
智能体(Agent):就是那只狗(在 AI
中就是我们的模型)。
环境(Environment):狗所处的现实世界。
状态(State):狗当前看到的画面、听到的口令(比如你喊"坐下")。
动作(Action):狗做出的反应(比如坐下、趴下、或者跑开)。
奖励(Reward):如果狗做对了,你给它一块肉(正奖励);做错了,你呵斥它(负奖励或零奖励)。
强化学习的核心目标,就是让这只狗(模型)在不断的"尝试-犯错-获得奖励"的过程中,自己摸索出一条规律:在什么情况下,做什么动作,能吃 ...
笔记|生成模型(十五):Flux 架构解析
本文为生成模型系列第十五篇。继 Stable Diffusion 3(SD3)之后,由原 SD
核心团队创立的 Black Forest Labs 推出了 Flux 系列模型。Flux 沿用了 Flow
Matching 与 Diffusion
Transformer(DiT)的底层框架,但在特征对齐、位置编码、网络结构以及蒸馏策略上进行了深度的重构与优化。本文将从数学原理与网络设计的角度,全面解析
Flux 的核心架构。
⬅️ 上一篇:笔记|生成模型(十四):Stable
Diffusion 3 架构解析 (MMDiT)
➡️ 下一篇:笔记|强化学习(一):强化学习基础与策略梯度
一、 引言:Flux 的定位与变体
在 2024 年 8 月发布时,FLUX.1
是开源社区规模最大的文本到图像(Text-to-Image)生成模型之一 [1]。相比于
2B 参数量级的 SD3,FLUX.1 将 Transformer 骨干网络的参数量大幅扩展至
12B(120
亿)。相关研究表明,这种对模型容量的暴力扩展(Scaling
up)能够显著提升模型对复杂物理规律、空间关系以及长文本指令 ...