笔记|强化学习(十):奖励模型全景——从基础架构到 Reward Hacking 与前沿进阶
本篇是强化学习系列中聚焦奖励模型(Reward Model, RM)的专题。我们将以前的 61 篇(基础架构)和 62 篇(进阶防攻击)合并精简,带你一文看懂:奖励模型是如何构建的?为什么大模型会“欺骗”裁判(Reward Hacking)?如何造出更强大的生成式裁判?视觉生成的奖励又难在哪里?
1. 奖励模型基础:从人类偏好到代理裁判
生成式任务(聊天、画图)没有绝对的标准答案。为了让强化学习(RL)能自动化更新,我们需要收集人类的相对偏好数据(A 比 B 好),训练一个神经网络 \(r_\theta(x, y)\) 作为代理裁判。
在架构实现上,最主流的做法是基于监督微调(SFT)模型,将其词表层移除,替换为输出一维标量的线性头。由于因果掩码特性,模型通常读取序列最后一个 token 的隐藏状态作为全局语义的汇总来进行打分。在损失函数方面,我们将“\(y_w\) 比 \(y_l\) 好”转化为概率:\(P(y_w \succ y_l) = \sigma(r_\theta(x, y_w) - r_\theta(x, y_l))\)。最大化这个预测概率,就得到了经典的 Bradley-Terry (BT) 损失 \(\mathcal{L}_{\text{BT}} = -\log\sigma(r_w - r_l)\)。这本质上是在做排序学习:拼命拉高好回答的分数,压低坏回答的分数。
不过,在推理、数学等任务中,“只看最后”太粗糙,因此奖励模型的粒度逐渐演化出了四种谱系:
- 序列级 (BT-RM):整段回答一个分,用 BT 配对损失,最适合主观对话。
- 结果级 (ORM):逐 token 做“对/错”二元交叉熵训练,适合有最终答案的客观任务。
- 过程级 (PRM):给每一个推理步骤打分(正/中/负),能精准定位错误,但标注极贵。
- 可验证奖励 (Verifiable):直接用编译器或规则判定(0/1 分),完全无需神经网络裁判(如 DeepSeek-R1-Zero)。
2. Reward Hacking 与裁判的进化
当我们在 RL 阶段冻结裁判 \(\hat{r}_\theta\),让策略 \(\pi\) 去最大化得分时,灾难往往随之而来。裁判模型不可避免地存在拟合误差,RL 优化器像水流一样,会找到提升分数最取巧的捷径。例如发现 RM 偏好长文,就会疯狂生成毫无意义的冗长内容。Gao et al. 证明,随着优化深入,代理 RM 分数一路飙升,但真实人类偏好却呈现先升后降的“倒 U 型曲线”。越过峰值后,模型就是在纯粹地钻漏洞,这就是所谓的 Reward Hacking。
传统上,PPO 会用 KL 散度限制策略"不要跑得太远"来缓解这个问题。但 Kwa et al. 发现这并不足够(即灾难性古德哈特现象):如果 RM 存在重尾误差(在分布的极远端存在极其荒谬但被误判为极高分的点),优化器只需把那些荒谬输出的概率稍微调高一点点。这在 KL 散度上代价极小,却能骗到巨大的分数收益,导致 KL 惩罚形同虚设。
既然不能完全指望限制优化器,业界开始转向提升裁判本身的鲁棒性和可解释性:
- 生成式奖励模型 (GenRM):把 RM 从黑盒分类器变回生成模型。让 LLM 先输出一段思维链(CoT)推理,最后再给出判决。内部生成的 CoT 使得 GenRM 的泛化能力显著强于传统 BT-RM,就像写评语的审稿人比盲打分的更难被欺骗。
- 多目标拆解 (ArmoRM):传统 RM 把所有偏好压成一个分,出问题时无法归因。ArmoRM 则让模型分别给出“安全、诚实、简洁”等多维度分数,再由门控网络动态加权。这把黑盒变成了白盒,极大提升了对齐的精细度。
3. 视觉生成领域的特殊裁判与选型
视觉生成(图像/视频)面临着缺乏廉价真值的问题,且“对齐”、“美学”、“时序连贯”等评价维度高度分裂。为了应对这些挑战,研究者们提出了 ImageReward,通过收集大量专家标注,训练了一个同时懂图文的视觉 BT-RM,替代了早期分裂的 CLIP Score(只管对齐)和美学分(只管好看)。
有了好裁判,还需要解决视觉生成模型无法在线试错的问题。Flow-GRPO 将确定性的 Flow Matching 生成改为等价的随机 SDE 过程,让模型有了“试错空间”,从而能够用 ImageReward 这样的裁判做在线 RL。到了视频生成的时代(如 MixGRPO),由于引入了时间维度,必须将奖励拆分为 VQ(视觉质量)和 MQ(运动质量),并进行独立的梯度截断(Clip),以防止方差小的核心指标被淹没。
综上所述,面对不同的生成任务,我们在工程落地时有明确的选型路径:
- 客观逻辑题(数学/代码):首选零成本、零 Hacking 的规则可验证奖励;退而求其次选 ORM。
- 开放主观题(聊天/写作):首选 BT-RM(标量头成本低)或 GenRM(需生成 CoT,成本高但更抗骗)。
- 出问题需要诊断时:使用多目标的 ArmoRM 来清晰查看各维度分数。