八月 2025 | 牛大帅的个人博客

文章总览 - 21

2025

2025-08-20

笔记｜强化学习（五）：Flow-GRPO 与图像生成应用（基于 Flux 的代码解析）

2025-08-19

笔记｜强化学习（四）：大模型在线 RL 破局者：GRPO 算法详解

2025-08-18

笔记｜强化学习（三）：大模型对齐的另一条路：DPO (Direct Preference Optimization)

2025-08-17

笔记｜强化学习（二）：信任区域与近端策略优化 (从 TRPO 到 PPO)

2025-08-16

笔记｜强化学习（一续）：从 REINFORCE 到 Actor-Critic

2025-08-16

笔记｜强化学习（一）：强化学习基础与策略梯度

2025-08-15

笔记｜生成模型（十五）：Flux 架构解析

2025-08-14

笔记｜生成模型（十四）：Stable Diffusion 3 架构解析 (MMDiT)

2025-08-13

笔记｜生成模型（十三）：Flow Matching理论与实现

2025-08-12

笔记｜生成模型（十二）：Normalizing Flow理论与实现