笔记｜强化学习（十）：奖励模型全景——从基础架构到 Reward Hacking 与前沿进阶

本篇是强化学习系列中聚焦奖励模型（Reward Model, RM）的专题。我们将以前的 61 篇（基础架构）和 62 篇（进阶防攻击）合并精简，带你一文看懂：奖励模型是如何构建的？为什么大模型会“欺骗”裁判（Reward Hacking）？如何造出更强大的生成式裁判？视觉生成的奖励又难在哪里？

⬅️ 上一篇：笔记｜强化学习（十一）：V-GRPO——用变分方法让扩散模型的在线 RL 变得简单

1. 奖励模型基础：从人类偏好到代理裁判

生成式任务（聊天、画图）没有绝对的标准答案。为了让强化学习（RL）能自动化更新，我们需要收集人类的相对偏好数据（A 比 B 好），训练一个神经网络 \(r_\theta(x, y)\) 作为代理裁判。

在架构实现上，最主流的做法是基于监督微调（SFT）模型，将其词表层移除，替换为输出一维标量的线性头。由于因果掩码特性，模型通常读取序列最后一个 token 的隐藏状态作为全局语义的汇总来进行打分。在损失函数方面，我们将“\(y_w\) 比 \(y_l\) 好”转化为概率：\(P(y_w \succ y_l) = \sigma(r_\theta(x, y_w) - r_\theta(x, y_l))\)。最大化这个预测概率，就得到了经典的 Bradley-Terry (BT) 损失 \(\mathcal{L}_{\text{BT}} = -\log\sigma(r_w - r_l)\)。这本质上是在做排序学习：拼命拉高好回答的分数，压低坏回答的分数。

不过，在推理、数学等任务中，“只看最后”太粗糙，因此奖励模型的粒度逐渐演化出了四种谱系：

序列级 (BT-RM)：整段回答一个分，用 BT 配对损失，最适合主观对话。
结果级 (ORM)：逐 token 做“对/错”二元交叉熵训练，适合有最终答案的客观任务。
过程级 (PRM)：给每一个推理步骤打分（正/中/负），能精准定位错误，但标注极贵。
可验证奖励 (Verifiable)：直接用编译器或规则判定（0/1 分），完全无需神经网络裁判（如 DeepSeek-R1-Zero）。

2. Reward Hacking 与裁判的进化

当我们在 RL 阶段冻结裁判 \(\hat{r}_\theta\)，让策略 \(\pi\) 去最大化得分时，灾难往往随之而来。裁判模型不可避免地存在拟合误差，RL 优化器像水流一样，会找到提升分数最取巧的捷径。例如发现 RM 偏好长文，就会疯狂生成毫无意义的冗长内容。Gao et al. 证明，随着优化深入，代理 RM 分数一路飙升，但真实人类偏好却呈现先升后降的“倒 U 型曲线”。越过峰值后，模型就是在纯粹地钻漏洞，这就是所谓的 Reward Hacking。

传统上，PPO 会用 KL 散度限制策略"不要跑得太远"来缓解这个问题。但 Kwa et al. 发现这并不足够（即灾难性古德哈特现象）：如果 RM 存在重尾误差（在分布的极远端存在极其荒谬但被误判为极高分的点），优化器只需把那些荒谬输出的概率稍微调高一点点。这在 KL 散度上代价极小，却能骗到巨大的分数收益，导致 KL 惩罚形同虚设。

既然不能完全指望限制优化器，业界开始转向提升裁判本身的鲁棒性和可解释性：

生成式奖励模型 (GenRM)：把 RM 从黑盒分类器变回生成模型。让 LLM 先输出一段思维链（CoT）推理，最后再给出判决。内部生成的 CoT 使得 GenRM 的泛化能力显著强于传统 BT-RM，就像写评语的审稿人比盲打分的更难被欺骗。
多目标拆解 (ArmoRM)：传统 RM 把所有偏好压成一个分，出问题时无法归因。ArmoRM 则让模型分别给出“安全、诚实、简洁”等多维度分数，再由门控网络动态加权。这把黑盒变成了白盒，极大提升了对齐的精细度。

3. 视觉生成领域的特殊裁判与选型

视觉生成（图像/视频）面临着缺乏廉价真值的问题，且“对齐”、“美学”、“时序连贯”等评价维度高度分裂。为了应对这些挑战，研究者们提出了 ImageReward，通过收集大量专家标注，训练了一个同时懂图文的视觉 BT-RM，替代了早期分裂的 CLIP Score（只管对齐）和美学分（只管好看）。

有了好裁判，还需要解决视觉生成模型无法在线试错的问题。Flow-GRPO 将确定性的 Flow Matching 生成改为等价的随机 SDE 过程，让模型有了“试错空间”，从而能够用 ImageReward 这样的裁判做在线 RL。到了视频生成的时代（如 MixGRPO），由于引入了时间维度，必须将奖励拆分为 VQ（视觉质量）和 MQ（运动质量），并进行独立的梯度截断（Clip），以防止方差小的核心指标被淹没。

综上所述，面对不同的生成任务，我们在工程落地时有明确的选型路径：

客观逻辑题（数学/代码）：首选零成本、零 Hacking 的规则可验证奖励；退而求其次选 ORM。
开放主观题（聊天/写作）：首选 BT-RM（标量头成本低）或 GenRM（需生成 CoT，成本高但更抗骗）。
出问题需要诊断时：使用多目标的 ArmoRM 来清晰查看各维度分数。