avatar
文章
35
标签
35
分类
2

首页
归档
标签
分类
友链
牛大帅的个人博客
首页
归档
标签
分类
友链

牛大帅的个人博客

笔记|强化学习(八):SuperFlow 与图像生成 RL 前沿(2026)
发表于2026-04-05|Notes
本文为 RL 系列的图像生成篇。在第五篇中我们介绍了 Flow-GRPO,将 GRPO 应用于基于 Flow Matching 的图像生成。本文将介绍其后续改进 SuperFlow,以及 2026 年图像/视频生成 RL 的统一框架生态,最后回顾整个系列的完整技术脉络。 ⬅️ 上一篇:笔记|强化学习(七):GRPO 的三重面孔——从 2-GRPO 到 f-GRPO 与 GIFT ➡️ 下一篇:笔记|强化学习(九):DanceGRPO 与 MixGRPO——视觉生成 GRPO 的扩展与加速 论文:SuperFlow: Training Flow Matching Models with RL on the Fly(2025.12, revised 2026.01) Flow-GRPO 的三个遗留问题 延续之前"橘猫坐在蓝色沙发上"的例子。 Flow-GRPO 的做法是:对每个 Prompt 生成 \(G\) 张图像,用奖励模型打分,算出组内相对优势,然后用策略梯度更新模型。这个流程在大规模训练时暴露出三个问题: 问题一:固定组大小导致计算浪费。 所有 Prompt 都生成固定 \ ...
笔记|强化学习(七):GRPO 的三重面孔——从 2-GRPO 到 f-GRPO 与 GIFT
发表于2026-04-05|Notes
本文为 RL 系列第七篇。上一篇介绍了 DAPO 的四大工程改进。本文从理论角度出发,剖析 GRPO 的数学本质:为什么 GRPO 其实是在做 DPO?为什么 2 个 rollout 就够了?如何从 KL 散度推广到任意 f-散度?最后介绍融合了 GRPO 和 DPO 优势的 GIFT 算法。 ⬅️ 上一篇:笔记|强化学习(六):DAPO:从 GRPO 到大规模推理 RL 的工程实践 ➡️ 下一篇:笔记|强化学习(八):SuperFlow 与图像生成 RL 前沿(2026) 论文: It Takes Two: Your GRPO Is Secretly DPO(2025.10) f-GRPO and Beyond: Divergence-Based RL for General LLM Alignment(2026.02) GIFT: Group-relative Implicit Fine Tuning(2025.10) 从一个令人意外的实验结果说起 在前几篇中,我们强调"组越大(\(G = 16\) 或 \(64\)),优势估计越准确,训练效果越好"。但 2025 年 ...
笔记|强化学习(六):DAPO:从 GRPO 到大规模推理 RL 的工程实践
发表于2026-04-05|Notes
本文为 RL 系列的第六篇。在上几篇中我们推导了 GRPO(组相对策略优化,Group Relative Policy Optimization)的核心思想并将其应用于图像生成。本文将介绍 GRPO 的工程增强版——DAPO(解耦裁剪与动态采样策略优化,Decoupled clip and dynAmic samPling policy Optimization),它是字节跳动 Seed 团队与清华 AIR 联合提出的大规模 LLM 强化学习算法,用 Qwen2.5-32B 基座模型在 AIME 2024 上达到 50 分(超过 DeepSeek-R1-Zero 的 47 分),且训练步数减少 50%。 ⬅️ 上一篇:笔记|强化学习(五):Flow-GRPO 与图像生成应用(基于 Flux 的代码解析) ➡️ 下一篇:笔记|强化学习(七):GRPO 的三重面孔——从 2-GRPO 到 f-GRPO 与 GIFT 论文:DAPO: An Open-Source LLM Reinforcement Learning System at Scale(2025.03) 先看问题:GRP ...
笔记|强化学习(五):Flow-GRPO 与图像生成应用(基于 Flux 的代码解析)
发表于2025-08-20|Notes
本文为 RL 系列第五篇。在完整梳理了从 REINFORCE 到 PPO、DPO,再到最新 GRPO 的演进路线后,我们将目光转向图像生成领域。本文将结合 flow_grpo 开源代码库,深入解析如何将 GRPO 算法应用于基于 Flow Matching 的图像生成模型(如 Flux)的微调中。方法学与系统实验见论文 Flow-GRPO: Training Flow Matching Models via Online RL(文中以 SD3.5 等为主报告;仓库实现覆盖 Flux)。 ⬅️ 上一篇:笔记|强化学习(四):大模型在线 RL 破局者:GRPO 算法详解 ➡️ 下一篇:笔记|强化学习(六):DAPO:从 GRPO 到大规模推理 RL 的工程实践 图像生成中的强化学习 先用一个例子理解为什么需要 RL。 假设你用一个 Flux 模型生成图像,给定 Prompt:"一只橘猫坐在蓝色沙发上"。模型可能生成以下几种结果: 生成结果 问题 一只白色猫坐在蓝色沙发上 颜色不对(应该是橘猫) 一只橘猫站在蓝色沙发旁边 动作不对(应该是"坐在") 一只橘猫坐在蓝色 ...
笔记|强化学习(四):大模型在线 RL 破局者:GRPO 算法详解
发表于2025-08-19|Notes
本文为系列第四篇。在了解了 PPO 的显存痛点和 DPO 的离线局限性后,我们终于迎来了目前大模型在线 RL 的最前沿破局者——GRPO(Group Relative Policy Optimization)。本文将详细推导 GRPO 的核心思想,看它是如何优雅地丢弃 Critic 网络,实现高效的在线强化学习的。 ⬅️ 上一篇:笔记|强化学习(三):大模型对齐的另一条路:DPO (Direct Preference Optimization) ➡️ 下一篇:笔记|强化学习(五):Flow-GRPO 与图像生成应用(基于 Flux 的代码解析) 在线 RL 的不可替代性与 Critic 的累赘 正如上一篇所言,DPO 虽然简单省显存,但它只能"死记硬背"人类给出的标准答案(离线学习)。为了让模型产生"顿悟"和自我进化,我们必须回归在线强化学习(Online RL)。 然而,PPO 算法中的 Critic 网络(价值网络)成为了最大的绊脚石。对于百亿参数的大模型,多维护一个 Critic 意味着显存开销直接翻倍。 核心思考出发点:既然 Critic 只是为了给出一个"及格线"(基准值 ...
笔记|强化学习(三):大模型对齐的另一条路:DPO (Direct Preference Optimization)
发表于2025-08-18|Notes
本文为系列第三篇。在上一篇中,我们提到 PPO 算法虽然稳定,但在百亿参数大模型微调时面临着极大的显存压力(需要同时维护 Actor 和 Critic 模型)。为了解决这一痛点,斯坦福大学在 2023 年提出了一条完全不同于在线 RL 的路线——DPO。本文将简要介绍 DPO 算法,作为后续回归 RL 路线(GRPO)的对比铺垫。 ⬅️ 上一篇:笔记|强化学习(二):信任区域与近端策略优化 (从 TRPO 到 PPO) ➡️ 下一篇:笔记|强化学习(四):大模型在线 RL 破局者:GRPO 算法详解 PPO 的繁琐与显存危机:大模型吃不消了 先看例子:假设我们要用 RLHF 微调一个大模型,让它学会写出更好的代码。传统流程分三步: SFT:用大量代码问答数据做监督微调——教模型"怎么写代码"。 RM:给同一道编程题生成两份代码(A 和 B),让人类标注哪份更好,训练一个"代码评审员"(奖励模型)。 RL:让模型自己去写代码,"评审员"给分,模型根据分数用 PPO 算法调整自己。 这个流程极其繁琐,且在 PPO 阶段,显存中需要同时驻留四个庞大的模型: Actor 模型(正在训 ...
笔记|强化学习(二):信任区域与近端策略优化 (从 TRPO 到 PPO)
发表于2025-08-17|Notes
本文为系列第二篇。在上一篇中,我们介绍了策略梯度和 Actor-Critic 架构。然而,包括 REINFORCE 在内的所有基础策略梯度方法,都存在更新步长难以控制、训练不稳定的核心困境。本文将首先深入剖析这一不稳定性的三个层面,然后详细推导如何通过限制策略更新幅度来保证训练的单调递增,从 TRPO 的数学思想一路演进到目前大模型 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)的基石——PPO 算法。 ⬅️ 上一篇:笔记|强化学习(一续):从 REINFORCE 到 Actor-Critic ➡️ 下一篇:笔记|强化学习(三):大模型对齐的另一条路:DPO (Direct Preference Optimization) 核心摘要: PPO 的核心是根据 TRPO 发展而来的。TRPO 在 Actor-Critic 的基础上,通过限制更新步长(引入 KL 散度约束),使得策略更新单调递增。其最大的贡献在于从数学上精确求解了参数空间与分布空间(策略变化)的映射关系(即 Fisher 信息矩阵,它是 KL 散度 ...
笔记|强化学习(一续):从 REINFORCE 到 Actor-Critic
发表于2025-08-16|Notes
本文承接上一篇的策略梯度理论,介绍策略梯度的三种实际实现——从最朴素的 REINFORCE 到引入基线的版本,再到 Actor-Critic 架构——并推导广义优势估计(GAE),为后续深入理解 PPO 和 GRPO 打下坚实的算法基础。 ⬅️ 上一篇:笔记|强化学习(一):强化学习基础与策略梯度 ➡️ 下一篇:笔记|强化学习(二):信任区域与近端策略优化 (从 TRPO 到 PPO) 在上一篇中,我们通过策略梯度定理推导出了梯度公式 \(\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_t \gamma^t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot Q^{\pi_\theta}(s_t, a_t)\right]\),并证明了为什么梯度中会出现 \(\log\) 概率。 从 REINFORCE 到 Actor-Critic:算法的演进 虽然我们在理论上推导出了应该用优势函数 \(A(s_t, a_t)\) 来更新策略,但在实际写代码时,我们无法直 ...
笔记|强化学习(一):强化学习基础与策略梯度
发表于2025-08-16|Notes
本文为大模型对齐与强化学习系列的第一篇,主要回顾强化学习(RL)的基础概念,并严格推导策略梯度定理,为后续深入理解 REINFORCE、Actor-Critic、PPO 和 GRPO 打下坚实的理论基础。 ⬅️ 上一篇:笔记|生成模型(十五):Flux 架构解析 ➡️ 下一篇:笔记|强化学习(一续):从 REINFORCE 到 Actor-Critic 强化学习基础概念:从"训狗"说起 对于纯小白读者来说,理解强化学习(Reinforcement Learning, RL)最直观的例子就是"训狗"。 智能体(Agent):就是那只狗(在 AI 中就是我们的模型)。 环境(Environment):狗所处的现实世界。 状态(State):狗当前看到的画面、听到的口令(比如你喊"坐下")。 动作(Action):狗做出的反应(比如坐下、趴下、或者跑开)。 奖励(Reward):如果狗做对了,你给它一块肉(正奖励);做错了,你呵斥它(负奖励或零奖励)。 强化学习的核心目标,就是让这只狗(模型)在不断的"尝试-犯错-获得奖励"的过程中,自己摸索出一条规律:在什么情况下,做什么动作,能吃 ...
笔记|生成模型(十五):Flux 架构解析
发表于2025-08-15|Notes
本文为生成模型系列第十五篇。继 Stable Diffusion 3(SD3)之后,由原 SD 核心团队创立的 Black Forest Labs 推出了 Flux 系列模型。Flux 沿用了 Flow Matching 与 Diffusion Transformer(DiT)的底层框架,但在特征对齐、位置编码、网络结构以及蒸馏策略上进行了深度的重构与优化。本文将从数学原理与网络设计的角度,全面解析 Flux 的核心架构。 ⬅️ 上一篇:笔记|生成模型(十四):Stable Diffusion 3 架构解析 (MMDiT) ➡️ 下一篇:笔记|强化学习(一):强化学习基础与策略梯度 一、 引言:Flux 的定位与变体 在 2024 年 8 月发布时,FLUX.1 是开源社区规模最大的文本到图像(Text-to-Image)生成模型之一 [1]。相比于 2B 参数量级的 SD3,FLUX.1 将 Transformer 骨干网络的参数量大幅扩展至 12B(120 亿)。相关研究表明,这种对模型容量的暴力扩展(Scaling up)能够显著提升模型对复杂物理规律、空间关系以及长文本指令 ...
1234
avatar
牛大帅
欢迎来到我的博客
文章
35
标签
35
分类
2
Follow Me
公告
欢迎来到牛大帅的猪舍~(昼伏夜出型)
最新文章
笔记|强化学习(十一):V-GRPO——用变分方法让扩散模型的在线 RL 变得简单2026-06-11
笔记|世界模型(六):自动驾驶世界模型——从视频预测到占用预测2026-04-06
笔记|世界模型(五):物理化的视频生成——让模型理解牛顿定律2026-04-06
笔记|世界模型(四):视频生成即世界模拟——从 Sora 到 Genie 与 Cosmos2026-04-06
笔记|世界模型(三):JEPA——在嵌入空间预测世界2026-04-06
分类
  • Notes28
  • Tutorials7
标签
Vista Generative models Generative models theory RSSM OccWorld DriveDreamer Self-Supervised Learning Diffusion Models Survey Cosmos 自我介绍 Generative Model Physics-Grounded Genie DPO Diffusion models Video Generation Reinforcement Learning GAIA-1 Stable Diffusion NewtonGen thinking Flow Matching Deep learning Autonomous Driving JEPA Dreamer Flux PhysGen Sora Model-based RL PhysDreamer Latent Space World Model V-JEPA
归档
  • 六月 20261
  • 四月 202611
  • 八月 202521
  • 七月 20252
网站资讯
文章数目 :
35
已运行时间 :
本站访客数 :
本站总访问量 :
最后更新时间 :
©2025 - 2026 By 牛大帅
框架 Hexo|主题 Butterfly