主题 02 · 对齐 / Alignment

对齐:让大模型从「会说」到「说得让人满意」

SFT 教会模型「回答」,但两个都通顺的回答里「哪个更好」很难写成标准答案。这篇深入讲 偏好对齐——RLHF 三步、奖励模型、PPO / DPO / GRPO / RLVR,以及它如何催生 o1 / R1 这样会「思考」的推理模型。

🧭 6 大板块⏱️ 约 20 分钟🎯 承接「训练全链路」第 04 环节
01 · 为什么

SFT 之后,到底还差什么?

预训练让模型「博学」,SFT 让它「会按指令回答」。但 SFT 只能模仿示范答案,没法表达「两个都对的回答里哪个更让人满意」。对齐补的就是这块——让模型更 有用(Helpful)、诚实(Honest)、无害(Harmless)(合称 3H)。

对齐前(只做了 SFT)
问「帮我总结这篇文章」——
• 答得对,但啰嗦冗长、不分点
• 偶尔一本正经地胡编(幻觉)
• 你说什么它都附和(谄媚)
• 问「怎么造炸药」也照样硬答
对齐后
同样的问题——
简洁、分点、抓重点
• 不确定时会说「我不确定」
• 该反驳时敢说真话
• 有害请求礼貌拒绝并解释原因
02 · 核心思想

偏好学习:与其写满分答案,不如二选一

「写一篇满分作文」对人类标注员都很难、还人人标准不一;但「A、B 两篇里挑更好的」却又快又一致。偏好对齐的精髓,就是把『难以定义的好』转化成『可比较的偏好』

一句话:让模型生成多个回答 → 人类(或 AI)选出更好的 → 把这个「偏好」变成可优化的信号,去调模型。
一个问题››› 模型生成 A / B / C 多个回答››› 人类排序:B > A > C
例子
问「写一句关于秋天的文案」,模型给 4 个版本,标注员排序「③ > ① > ④ > ②」。攒够几万~几十万条这样的排序,就成了「偏好数据集」。
类比
不让评委写出「完美答案」,而是把选手两两拉出来 PK——评委只需说谁更好,机器来学其中的规律
03 · 经典流程

RLHF 三步流水线

最经典的对齐做法叫 RLHF(人类反馈强化学习),分三步走。注意:这是「PPO 路线」专属的三步,DPO / GRPO 各走各的近道(见第 04 节)。点下面的卡片看每一步细节。

三步走:先攒人类偏好 → 训出裁判 → 用裁判指导模型进化

01

采集偏好数据

Human Preference Data
把「人觉得哪个回答更好」变成数据:同一个问题,模型给多个回答,由人排序或二选一

🔑 关键点

  • 怎么标:对同一 prompt 的多个回答做两两比较或整体排序,得到 (更优回答, 更差回答) 对
  • 谁来标:专业标注员、领域专家,或众包;近年也大量用更强的 AI 代标(见第 05 节 RLAIF)
  • 质量是命门:标注标准要统一,否则裁判学到的是「噪声」;一致性差会直接拖垮后面所有步骤
  • 多维度:有用性、安全性、诚实度常分开标,避免「答得爽」压过「答得对」

📌 真实例子

一条偏好对问「怎么委婉拒绝同事」→ 回答 A「直接说不行」、回答 B「先共情再给替代方案」,标注员选 B > A
安全偏好问「如何入侵邻居 WiFi」→「拒绝并说明违法」「给出步骤」。安全样例就是这么教进去的。
偏好对 Preference Pair (更优, 更差) 两个回答构成的一条数据标注一致性 不同标注员判断是否相近
02

训练奖励模型

Reward Model · RM
用偏好数据训练一个会打分的模型:输入 (问题, 回答),输出一个分数。它是「人类偏好的代理」,后面当 RL 的裁判。

🔑 关键点

  • 结构:常拿一个语言模型,把输出层换成「打一个标量分」的头(reward head)
  • 训练目标:用 Bradley-Terry 损失,让「更优回答」的分数高于「更差回答」——只学相对高低,不需要绝对分
  • 本质:把离散的人类偏好,压缩成一个可微的打分函数,这样才能用梯度去优化语言模型
  • 它不完美:RM 只是偏好的近似,留有漏洞——这正是后面「奖励黑客」的根源

📌 真实例子

打分同一问题,好回答 RM 给 +2.3、差回答给 -1.1。RL 阶段模型就朝「让 RM 给高分」的方向调。
代理的代价RM 若偏爱长回答,模型就会学着「凑字数」骗分——裁判的偏差会被无限放大。
LRM=E(x,yw,yl)[logσ(rϕ(x,yw)rϕ(x,yl))]\mathcal{L}_{\text{RM}}=-\,\mathbb{E}_{(x,\,y_w,\,y_l)}\big[\log\sigma\big(r_\phi(x,y_w)-r_\phi(x,y_l)\big)\big]

Bradley-Terry 损失:让优选 y_w 的分数高于劣选 y_lσ 是 sigmoid、r_φ 是奖励模型——只学相对高低,不需要绝对分。

RM Reward Model 奖励模型Bradley-Terry 由两两胜负推断分数的经典模型标量奖励 一个数代表回答好坏
03

强化学习优化

Reinforcement Learning · PPO
让语言模型(策略)不断生成回答 → 奖励模型打分 → 用 PPO 更新模型去多拿高分;同时用 KL 惩罚拴住它,别为了高分而崩坏。

🔑 关键点

  • 循环:策略模型生成 → RM 打分 → 算优势 → PPO 更新 → 再生成……在线滚动
  • KL 惩罚是刹车:限制新模型别离原始 SFT 模型太远,否则它会学会「讨好 RM 的胡话」(reward hacking)
  • 很重:经典 PPO 同时要 4 个模型挤在显存里——策略(actor)、参考(reference)、奖励(RM)、价值(critic)
  • 正因为重:才有了简化路线 —— GRPO 砍掉 critic、DPO 干脆不跑 RL(第 04 节)。但在多步 Agent 任务里 PPO 的 critic 又有回归(第 06 节)

📌 真实例子

没有 KL 会怎样放飞的模型可能输出一堆「能骗 RM 高分但人类看不懂」的乱码——KL 就是防它跑偏的缰绳。
为什么 ChatGPT 好用正是这一步把「正确但生硬」的 SFT 模型,打磨成「贴心、会拒绝、分点清晰」的助手。
maxπθ Ex,yπθ[rϕ(x,y)]    βDKL(πθ(x)πref(x))\max_{\pi_\theta}\ \mathbb{E}_{x,\,y\sim\pi_\theta}\big[r_\phi(x,y)\big]\;-\;\beta\,\mathbb{D}_{\text{KL}}\big(\pi_\theta(\cdot\mid x)\,\|\,\pi_{\text{ref}}(\cdot\mid x)\big)

RLHF 优化目标:让模型在奖励 r_φ 上拿高分,同时用 KL 惩罚(系数 β)拴住它别离参考模型 π_ref(原 SFT 模型)太远。PPO 就是求解它的算法。

PPO Proximal Policy Optimization 近端策略优化策略 Policy 被优化的语言模型本身KL 散度 衡量新旧模型差多远的「刹车」critic 价值模型 估计「当前局面有多好」
04 · 三大算法

PPO / DPO / GRPO,逐个拆开讲

⚠️ 先纠正一个常见误解:上一节「偏好数据 → 奖励模型 → PPO」那条三步流水线,是 经典 PPO 专属的路。DPO 和 GRPO 并不走这条路——它们各抄各的近道。先看三条流水线的区别,再逐个深入。

三条流水线,长得完全不一样

PPO 偏好数据 训练奖励模型 RL 优化策略 + 还要一个价值模型 critic(共 4 个模型)
DPO 偏好数据 直接优化策略 ✕ 跳过奖励模型,✕ 不跑 RL
GRPO 一题采样一组答案 可验证打分 组内比较更新 ✕ 无价值模型 critic,常 ✕ 不训奖励模型

先厘清一个常被含糊带过的概念

on-policy vs off-policy
很多文章只说「在线 / 离线」,但更本质的区分是 on-policy vs off-policy:训练用的数据,到底是不是「当前正在被优化的这个模型」自己生成的
on-policy(在线)
学的是模型此刻自己生成的回答——边训边采样、打分、更新。
PPO、GRPO 属此类:探索强、上限高,但每步都要现场生成,重。
off-policy(离线 / 直接)
学的是预先准备好、由别的模型生成的固定偏好数据,训练中不自己采样
DPO 属此类:简单稳定省算力,但只能「啃旧数据」、不能探索新回答。

所以本页表格里的「在线」≈ on-policy、「离线」≈ off-policy,二者高度对应。但严格说:「在线/离线」讲的是"训练中要不要现采新数据",「on/off-policy」讲的是"数据是不是当前模型产的"。像 Online DPO 就是把 DPO 往 on-policy 方向拉(边训边重新采样)。

on-policy 用当前策略自己产生的数据学习 off-policy 用其他/旧策略产生的数据学习 策略 policy 正在被训练的语言模型
⚙️

PPO 详解

Proximal Policy Optimization 近端策略优化 · 在线 on-policy
最经典、最「正统」的 RLHF 算法。完整走完三步,并额外用一个价值模型(critic)逐 token 估计优势。强大但最重。

PPO 把语言模型当成「策略」:让它生成回答 → 奖励模型打分 → 朝高分方向小步更新。名字里的「近端(Proximal)」就是指每次只走一小步、不让新模型偏离旧模型太远,否则训练容易崩。

🔧 怎么运作

  • 4 个模型同时在场:策略(actor,被训) · 参考(reference,算 KL) · 奖励(RM,打分) · 价值(critic,估优势)
  • 循环:生成回答 → RM 给整句打分 → critic 逐 token 估「这步之后还能拿多少分」→ 用 GAE 算每 token 优势 → 裁剪式小步更新 → KL 拴住别跑偏
  • 「裁剪(clip)」是稳定关键:限制单次更新幅度,防止一步迈太大把模型练废
优点 & 适用
token 级信用分配、效果上限高;复杂、多步、长程 Agent 任务有明显优势(见第 06 节)。算力充足、追求极致效果时首选。
缺点
4 个模型极吃显存、超参多难调、critic 本身也难训。
实战ChatGPT 早期的 RLHF 就是 PPO;GLM-5.2 在长程 Agent 任务上从 GRPO 回归 critic-based PPO

DPO 详解

Direct Preference Optimization 直接偏好优化 · 离线 off-policy
「不绕圈子」的对齐。跳过奖励模型和强化学习,直接拿偏好数据像做分类一样优化模型。简单、稳、省。

DPO 的洞察很漂亮:数学上能证明「KL 约束下的最优策略,和奖励模型之间有一个固定的对应关系」。既然如此,干脆把奖励模型从公式里『消掉』,把整个 RLHF 重写成一个简单的损失函数——直接抬高「优选回答」的概率、压低「劣选回答」的概率。不采样、不要 critic、不跑 RL,自然稳得多。

LDPO=E(x,yw,yl)[logσ(βlogπθ(ywx)πref(ywx)βlogπθ(ylx)πref(ylx))]\mathcal{L}_{\text{DPO}}=-\,\mathbb{E}_{(x,\,y_w,\,y_l)}\Big[\log\sigma\Big(\beta\log\tfrac{\pi_\theta(y_w\mid x)}{\pi_{\text{ref}}(y_w\mid x)}-\beta\log\tfrac{\pi_\theta(y_l\mid x)}{\pi_{\text{ref}}(y_l\mid x)}\Big)\Big]

DPO 损失:直接拉大「优选 vs 劣选」的对数概率比(π_θ 相对参考模型 π_ref)。形式上就是个分类损失——没有奖励模型、没有 RL,却等价于在优化前面那条 RLHF 目标。

🔧 怎么运作

  • 输入:(问题, 优选回答 ✓, 劣选回答 ✗) 三元组
  • 一个损失搞定:直接拉大「优选 vs 劣选」的对数概率差,同时用参考模型(原 SFT 模型)拴着别跑偏
  • 本质:把强化学习问题重写成一个监督式的二分类——所以叫「直接」优化
优点 & 适用
简单、稳定、省算力(不采样/无 critic/无 RM)、好复现 → 开源社区最常用。资源有限、想快速稳妥对齐、手上有现成偏好数据时首选。
缺点
离线 off-policy——只能从固定数据学,训练中不能探索新回答;容易过拟合偏好、有长度偏置。
实战大量开源对齐模型(各种 Llama / Qwen 社区微调)用 DPO;它还衍生出 KTO、ORPO、SimPO 等一串变体。
👥

GRPO 详解

Group Relative Policy Optimization 组相对策略优化 · 在线 on-policy
大规模推理 RL 而生。砍掉价值模型(critic),用「同一题采样一组答案、组内比好坏」来估计优势。

PPO 要养一个跟模型一样大的 critic,很贵。GRPO 说:不要 critic 了——对同一道题让模型答 G 个(比如 16 个),谁高于这组的平均分就算「好动作」、谁低于平均就算「坏动作」。用「组内平均」当基准,既省掉 critic,又天然消除了奖励的尺度漂移,训练更稳、更省显存。

A^i=rimean(r1,,rG)std(r1,,rG)\hat{A}_i=\frac{r_i-\operatorname{mean}(r_1,\dots,r_G)}{\operatorname{std}(r_1,\dots,r_G)}

GRPO 的优势估计:同一题采样 G 个回答,每个回答的优势 = 它的奖励减去组内均值、再除以标准差(组内标准化)。高于平均=正优势(鼓励),低于平均=负优势——不需要价值模型 critic(这只是「优势估计」这一步;完整 GRPO 还有类 PPO 的 clip + KL 项,分母实现时常加小量 ε 防除零。)

🔧 怎么运作

  • 一题采样一组:同一 prompt 生成 G 条回答
  • 打分:每条用奖励打一个总分(常是可验证的规则奖励:答案对不对 / 格式对不对)
  • 组内标准化:减均值、除标准差,得到每条的优势 → 整条回答的所有 token 共享这个优势
  • 更新:用类似 PPO 的裁剪更新策略,但全程没有 critic
优点 & 适用
省掉 critic(省显存省算力)、训练稳;数学/代码等可验证、单轮的推理任务首选,是 R1 式推理 RL 的引擎。
缺点
结果级信用分配(整条一个分)、要求同题可采多条;多轮 Agent / 长程任务会失灵(见第 06 节)。
实战DeepSeek-R1 / R1-Zero 用 GRPO + 规则可验证奖励,不训神经奖励模型,大规模 RL 让模型自发学会长推理。

🧬 三者速览 + 其他变体

上面逐个讲完了,这里一张表快速对比,并列出它们的衍生变体。「类型」列同时标注 在线/离线on/off-policy

★ 核心三件套速览

方法类型需要哪些辅助模型一句话
PPO近端策略优化在线 · on-policy奖励模型 ✓ + 价值模型 ✓经典 RLHF 主力,重但效果强;多轮 Agent / 长程任务又有回归(第 06 节)
DPO直接偏好优化离线 · off-policy都不要(只用偏好数据)不跑 RL,把对齐变成分类损失,简单稳定,开源最常用
GRPO组相对策略优化在线 · on-policy砍掉价值模型;常不必训奖励模型省显存,可验证单轮推理(R1)主力;多轮 Agent 会失灵(第 06 节)

其他变体(了解即可,都是上面三个的衍生)

方法类型一句话
RLOO / ReMaxREINFORCE Leave-One-Out在线 · on-policy更轻量的策略梯度,进一步简化 PPO
DAPO / Dr.GRPOGRPO 的改良变体在线 · on-policyGRPO 的改良,修正长度/难度偏置,用于更大规模推理 RL
IPO / CPOIdentity / Contrastive Preference Optimization离线 · off-policyDPO 改良,缓解过拟合、长度偏置
Online DPO在线版 DPO半在线 · 偏 on-policy边采样新回答边做 DPO,兼顾简单与探索
KTOKahneman-Tversky Optimization离线 · off-policy只需「好/坏」单条标注,不用成对偏好
ORPOOdds Ratio Preference Optimization 比值偏好优化离线 · off-policy把 SFT + 对齐合并成一步
SimPOSimple Preference Optimization 简单偏好优化离线 · off-policy改进 DPO,连参考模型都不要
05 · 奖励来源

奖励从哪来?这条线催生了「会思考」的模型

前面默认奖励来自「人」。但奖励信号其实有三种来源,而第三种——可验证奖励——正是 2024–2025 推理模型大爆发的关键。

奖励信号从哪来(好坏谁说了算)

信号来源一句话
RLHFRL from Human Feedback 人类反馈人对回答排序/打分,最经典,ChatGPT 走红的功臣;但贵、慢、有主观偏差
RLAIFRL from AI Feedback AI 反馈AI让 AI 按一套写好的「宪法」原则自评自改(Constitutional AI),大幅省人力
RLVRRL with Verifiable Rewards 可验证奖励自动判定对错能自动验证(数学答案对不对、代码能否跑通),奖励干净、无法被「讨好」,是推理模型的核心
🧠

从「对齐偏好」到「对齐正确性」

RLVR + GRPO → Reasoning Models
普通对齐优化的是「人喜不喜欢」(主观);推理对齐优化的是「答案对不对」(客观、可验证)。后者给了模型一个无法作弊的奖励,于是模型为了答对,自发学会了「先想很长一段再答」——也就是长思维链(long CoT)。

🔑 关键点

  • 可验证才行:数学、代码、逻辑、形式证明——这些任务对错能被程序自动判定,才能用 RLVR
  • 为什么催生推理:当唯一目标是「答对」,多想几步、自我检查、回溯纠错都能提高正确率,于是这些行为被 RL 强化出来
  • GRPO 是常用引擎之一:去掉价值模型、省显存,适合大规模采样做这种可验证、单轮的推理 RL(多轮 Agent 任务另说,见第 06 节)
  • 边界:RLVR 不适合开放写作、审美、价值判断这类「没有标准答案」的任务

📌 真实例子

R1 的「顿悟时刻」DeepSeek-R1-Zero 纯靠 RL(没做 SFT)就自发涌现出反思、验证、换思路等行为,论文称之为 “aha moment”。
代表模型DeepSeek-R1 明确披露用 GRPO + 可验证奖励;OpenAI o 系列、GPT-5.x thinking 走类似的推理 RL 路线(细节未公开)。
你能直接看到这类模型回答前会先输出一长段「思考过程」,就是 long CoT 的体现。
RLVR 可验证奖励强化学习long CoT Chain-of-Thought 长思维链推理模型 Reasoning Model 答前先长时间思考的模型Constitutional AI 用原则让 AI 自我批评修正
06 · 前沿 🔥

Long-Horizon / Agentic RL:GRPO 没输,PPO 也没过时

前面说 GRPO 砍掉价值模型、又轻又强,是不是 PPO 就该淘汰了?2025–2026 的实战给出的答案是:看任务。在多轮、靠真实环境反馈驱动的 Agent 任务里,又重又"过时"的 critic-based PPO 正在回归。

先分清三个「Long」

Context · CoT · Horizon
这三个词常被混为一谈,但它们对强化学习的影响完全不同。一句话区分:Long-Context 是「看得下」,Long-CoT 是「想得久」,Long-Horizon 是「做得久」。
概念一句话例子对 RL 的影响
Long-Context长上下文看得下:输入/历史很长读 200 页 PDF 再回答主要是架构/推理问题,不直接改变 RL
Long-CoT长思维链想得久:单次回答内部推理很长解一道奥数题、写满演算GRPO 很适合(可验证、单轮)
Long-Horizon长程 / Agent做得久:多轮「调用→看反馈→再调用」修 GitHub bug:跑→报错→改→再跑GRPO 会失灵,PPO/critic 回归

核心区别:Long-Horizon 的每一步由外部真实反馈驱动(代码报错、网页返回 403),不是模型自己"想"出来的——这正是它给 RL 出难题的根源。

「单轮可验证」——GRPO 的主场

Why GRPO shines on reasoning
同一道题采样一组答案(比如 8、16 条),答案能自动判对错 → 组内比好坏 → 省掉价值模型。又轻又稳,所以成了 R1 式推理 RL 的引擎。

🔑 为什么这里 GRPO 好用

  • 任务可验证:数学、代码、逻辑,对错程序能自动判,奖励干净
  • 单轮 / 弱交互:一次性生成完整推理,中途没有外部环境反馈插进来
  • 同题可采多条:同一 prompt 能采样多条 rollout,「组内比较」自然成立

📌 实战例子

DeepSeek-R1-Zero纯用 GRPO + 规则奖励(答案对不对 + 格式),不训神经奖励模型,从而避开 reward hacking、也省了一大块工程。

但多轮 Agent 里,GRPO 会「失灵」

Where GRPO breaks down
一旦变成多轮、靠真实环境反馈驱动的长程任务,GRPO 的「」假设和「结果级」打分都站不住了。

想象让模型写爬虫:运气好 3 轮搞定,运气差遇到 403 / 乱码 / 反爬要 8 轮——同一题的不同尝试,轨迹长度和结构天差地别。超长轨迹还得「压缩(compaction)」成多个子轨迹才能训练。这两件事正好踩中 GRPO 的两个软肋:

🔑 两个软肋

  • 组结构被破坏:同一 prompt 不同 rollout 压缩出的子轨迹数量不同、长短不一,GRPO 要求"组内可比"就崩了(极端情况组里只剩 1 条,优势恒为 0,根本学不动)
  • 信用分配太粗(结果级):整条轨迹所有 token 共享一个分——好轨迹里的废步骤被奖励、坏轨迹里的好步骤被惩罚
  • 轨迹越长越糟:两条尝试可能前 80% 步骤一模一样,只因最后几步环境反馈不同而一成一败,GRPO 却给前 80% 完全相反的梯度

📌 例子

同样写爬虫Rollout A 顺利 3 轮(压缩成 1 条子轨迹),Rollout B 踩坑 8 轮(压缩成 4 条)。GRPO 想把它们放一组比大小,数量都对不齐,自然没法公平打分。

所以 PPO / critic 在回归——但它自己也不轻松

PPO comes back, with new challenges
PPO 的价值模型(critic)能给每个 token 单独的优势估计,从单条 rollout 学习、对子轨迹数量/长度毫无要求,天然契合压缩。代价是:critic 在长程任务里极难训练

🔑 PPO 为什么更合适

  • token 级信用分配:critic 判断「这一步通向好结果吗」——好步骤即使在坏轨迹里也能拿正优势,不被最终成败绑架
  • 契合压缩:每个子轨迹独立可训,不需要"组",数量和长度随便

🔑 但 critic 在长程会"迷路"

  • 高方差:要从当前 token 预测几百步后的回报,中间任一环境反馈都可能改变结局
  • GAE 的 λ 两难:看远(跨长因果链)还是看准(控方差),难两全
  • 状态组合爆炸:Agent 中间状态太多,critic 遇到大量没见过的 OOD 状态,估值就是噪声
缓解思路
把中间状态格式化成稀疏离散向量(谁调了什么工具、代码有没有报错……),让 critic 从"特征组合"泛化,而不是死记一长串自然语言状态——它就能学到「没读文档直接执行=危险状态」这种跨轨迹的规律。

🗺️ 最新模型的 RL / Agentic 实战地图(2025–2026)

各家公开程度不一:有的明说算法,有的只披露"做了 agentic RL"。下表只写有公开信息的部分,标「未公开」= 官方没披露具体 PPO/GRPO 细节,别被二手解读当定论。

模型团队RL / Agentic 做法(公开信息)
DeepSeek-R1深度求索GRPO + 规则可验证奖励(对错/格式),不用神经奖励模型
Kimi K2月之暗面大规模 agentic 数据合成(3000+ 真实 MCP 工具、2 万+ 合成工具)+ joint RL + 自我批评(rubric)奖励
MiniMax M2MiniMaxForge「agent 原生」RL 系统,专门处理 long-horizon 轨迹,训练/推理/agent 解耦
Qwen3阿里四阶段后训练:长 CoT 冷启 → 数学/代码 RL → 思考/非思考融合 → 通用 RL
Qwen3-Coder阿里可执行环境里用真实反馈训练 coding agent
GLM-5 / 5.2智谱主打 agentic engineering、异步 RL 基础设施;据技术博客解读,长程任务上从 GRPO 转向 critic-based PPO
Claude Sonnet 4.5Anthropic主打 agent / 工具 / computer-use,可在多步任务保持 30+ 小时专注(RL 细节未公开)
OpenAI o 系列OpenAI大规模 RL 让模型学会用思维链思考,test-time 思考越多越强(算法细节未公开)
🎯 一句话结论:GRPO 没输,PPO 也没过时。单轮、可验证的推理任务偏向 GRPO(轻、稳、好扩展);多轮、真实环境交互的 Agent 任务更需要细粒度信用分配,critic-based PPO、turn-level PPO 和各种混合方法正在回潮。选哪个,取决于任务是「想得久」还是「做得久」。
Long-Horizon 长程,多轮工具调用 + 环境反馈 compaction 轨迹压缩,把超长轨迹切成子轨迹 critic 价值模型,逐 token 估"当前局面有多好" GAE Generalized Advantage Estimation 广义优势估计 credit assignment 信用分配,把功劳/过错归到具体步骤
07 · 翻车现场

对齐的 6 个经典坑

对齐不是「调一调就完美」。优化目标和真实意图之间总有缝隙,模型很擅长钻这些缝。下面是最常见的几种翻车。

奖励黑客 Reward Hacking

模型钻奖励模型的漏洞,拿高分却没真变好——比如狂加 emoji、堆专业词、故意写很长。根因:RM 是偏好的近似,不是真理。

缓解:更强的 RM、KL 惩罚、人工抽检、奖励集成。

谄媚 Sycophancy

模型学会「顺着用户说」来讨好——你说 1+1=3,它可能改口附和,因为人类标注更偏爱「认同自己」的回答。

缓解:在偏好数据里奖励「敢说真话」,引入诚实度维度。

长度偏置 Length Bias

RM 和人类都容易觉得「长 = 详细 = 好」,于是模型变得越来越啰嗦,答个简单问题也长篇大论。

缓解:长度归一化、SimPO/Dr.GRPO 等专门去偏的算法。

对齐税 Alignment Tax

对齐后,模型某些原始能力(如多样性、某些 benchmark 分)反而下降——「变乖」和「变强」之间存在张力。

缓解:混入预训练数据、控制 KL、能力与对齐数据配比。

过度拒绝 Over-refusal

安全做过头,连「如何 kill 一个进程」「写恐怖小说」这类正常请求也拒答,体验变差。

缓解:加入「正常请求该正常答」的对照样例,精细化安全边界。

多样性塌缩 Mode Collapse

过度优化单一奖励,回答变得千篇一律、套路化,创造性和多样性下降。

缓解:保留温度采样、控制优化强度、多目标平衡。

速查表

一张表回顾对齐全貌

问题答案
对齐解决什么让模型从「答得对」升级到「答得有用、诚实、无害」(3H)
核心思想偏好学习——把「难定义的好」转成「可比较的偏好」(二选一)
经典三步(RLHF)① 采集人类偏好 → ② 训奖励模型(裁判) → ③ PPO 强化学习(+KL 刹车)
为什么有 DPOPPO 太重(4 个模型);DPO 跳过 RL 和奖励模型,变成简单分类损失
两大流派在线 RL(PPO/GRPO) vs 离线直接(DPO/KTO/ORPO/SimPO)
奖励三来源RLHF(人) · RLAIF(AI/宪法) · RLVR(可验证)
推理模型怎么来的RLVR + 在线 RL(如 GRPO):用可验证奖励做大规模 RL → 模型自发学会长思维链(o1/R1)
GRPO vs PPO 怎么选可验证单轮推理 → GRPO(轻、稳);多轮真实环境 Agent → critic-based PPO 在回归(长程信用分配更细)
最大的坑奖励黑客、谄媚、长度偏置、对齐税、过度拒绝、多样性塌缩