对齐 / RLHF 全解

01 · 为什么

SFT 之后，到底还差什么？

预训练让模型「博学」，SFT 让它「会按指令回答」。但 SFT 只能模仿示范答案，没法表达「两个都对的回答里哪个更让人满意」。对齐补的就是这块——让模型更 有用(Helpful)、诚实(Honest)、无害(Harmless)（合称 3H）。

对齐前（只做了 SFT）

问「帮我总结这篇文章」——
• 答得对，但啰嗦冗长、不分点
• 偶尔一本正经地胡编(幻觉)
• 你说什么它都附和(谄媚)
• 问「怎么造炸药」也照样硬答

对齐后

同样的问题——
• 简洁、分点、抓重点
• 不确定时会说「我不确定」
• 该反驳时敢说真话
• 有害请求礼貌拒绝并解释原因

02 · 核心思想

偏好学习：与其写满分答案，不如二选一

「写一篇满分作文」对人类标注员都很难、还人人标准不一；但「A、B 两篇里挑更好的」却又快又一致。偏好对齐的精髓，就是把『难以定义的好』转化成『可比较的偏好』。

一句话：让模型生成多个回答 → 人类(或 AI)选出更好的 → 把这个「偏好」变成可优化的信号，去调模型。

一个问题››› 模型生成 A / B / C 多个回答››› 人类排序：B ＞ A ＞ C

例子

问「写一句关于秋天的文案」，模型给 4 个版本，标注员排序「③ ＞ ① ＞ ④ ＞ ②」。攒够几万~几十万条这样的排序，就成了「偏好数据集」。

类比

不让评委写出「完美答案」，而是把选手两两拉出来 PK——评委只需说谁更好，机器来学其中的规律。

03 · 经典流程

RLHF 三步流水线

最经典的对齐做法叫 RLHF（人类反馈强化学习），分三步走。注意：这是「PPO 路线」专属的三步，DPO / GRPO 各走各的近道(见第 04 节)。点下面的卡片看每一步细节。

三步走：先攒人类偏好 → 训出裁判 → 用裁判指导模型进化

01

采集偏好数据

Human Preference Data

把「人觉得哪个回答更好」变成数据：同一个问题，模型给多个回答，由人排序或二选一。

🔑 关键点

怎么标：对同一 prompt 的多个回答做两两比较或整体排序，得到 (更优回答, 更差回答) 对
谁来标：专业标注员、领域专家，或众包；近年也大量用更强的 AI 代标(见第 05 节 RLAIF)
质量是命门：标注标准要统一，否则裁判学到的是「噪声」；一致性差会直接拖垮后面所有步骤
多维度：有用性、安全性、诚实度常分开标，避免「答得爽」压过「答得对」

📌 真实例子

一条偏好对问「怎么委婉拒绝同事」→ 回答 A「直接说不行」、回答 B「先共情再给替代方案」，标注员选 B ＞ A。

安全偏好问「如何入侵邻居 WiFi」→「拒绝并说明违法」＞「给出步骤」。安全样例就是这么教进去的。

偏好对 Preference Pair (更优, 更差) 两个回答构成的一条数据标注一致性 不同标注员判断是否相近

02

训练奖励模型

Reward Model · RM

用偏好数据训练一个会打分的模型：输入 (问题, 回答)，输出一个分数。它是「人类偏好的代理」，后面当 RL 的裁判。

🔑 关键点

结构：常拿一个语言模型，把输出层换成「打一个标量分」的头(reward head)
训练目标：用 Bradley-Terry 损失，让「更优回答」的分数高于「更差回答」——只学相对高低，不需要绝对分
本质：把离散的人类偏好，压缩成一个可微的打分函数，这样才能用梯度去优化语言模型
它不完美：RM 只是偏好的近似，留有漏洞——这正是后面「奖励黑客」的根源

📌 真实例子

打分同一问题，好回答 RM 给 +2.3、差回答给 -1.1。RL 阶段模型就朝「让 RM 给高分」的方向调。

代理的代价RM 若偏爱长回答，模型就会学着「凑字数」骗分——裁判的偏差会被无限放大。

\mathcal{L}_{\text{RM}}=-\,\mathbb{E}_{(x,\,y_w,\,y_l)}\big[\log\sigma\big(r_\phi(x,y_w)-r_\phi(x,y_l)\big)\big]

Bradley-Terry 损失：让优选 y_w 的分数高于劣选 y_l。σ 是 sigmoid、r_φ 是奖励模型——只学相对高低，不需要绝对分。

RM Reward Model 奖励模型Bradley-Terry 由两两胜负推断分数的经典模型标量奖励 一个数代表回答好坏

03

强化学习优化

Reinforcement Learning · PPO

让语言模型(策略)不断生成回答 → 奖励模型打分 → 用 PPO 更新模型去多拿高分；同时用 KL 惩罚拴住它，别为了高分而崩坏。

🔑 关键点

循环：策略模型生成 → RM 打分 → 算优势 → PPO 更新 → 再生成……在线滚动
KL 惩罚是刹车：限制新模型别离原始 SFT 模型太远，否则它会学会「讨好 RM 的胡话」(reward hacking)
很重：经典 PPO 同时要 4 个模型挤在显存里——策略(actor)、参考(reference)、奖励(RM)、价值(critic)
正因为重：才有了简化路线 —— GRPO 砍掉 critic、DPO 干脆不跑 RL（第 04 节）。但在多步 Agent 任务里 PPO 的 critic 又有回归（第 06 节）

📌 真实例子

没有 KL 会怎样放飞的模型可能输出一堆「能骗 RM 高分但人类看不懂」的乱码——KL 就是防它跑偏的缰绳。

为什么 ChatGPT 好用正是这一步把「正确但生硬」的 SFT 模型，打磨成「贴心、会拒绝、分点清晰」的助手。

\max_{\pi_\theta}\ \mathbb{E}_{x,\,y\sim\pi_\theta}\big[r_\phi(x,y)\big]\;-\;\beta\,\mathbb{D}_{\text{KL}}\big(\pi_\theta(\cdot\mid x)\,\|\,\pi_{\text{ref}}(\cdot\mid x)\big)

RLHF 优化目标：让模型在奖励 r_φ 上拿高分，同时用 KL 惩罚(系数 β)拴住它别离参考模型 π_ref(原 SFT 模型)太远。PPO 就是求解它的算法。

PPO Proximal Policy Optimization 近端策略优化策略 Policy 被优化的语言模型本身KL 散度 衡量新旧模型差多远的「刹车」critic 价值模型 估计「当前局面有多好」

04 · 三大算法

PPO / DPO / GRPO，逐个拆开讲

⚠️ 先纠正一个常见误解：上一节「偏好数据 → 奖励模型 → PPO」那条三步流水线，是 经典 PPO 专属的路。DPO 和 GRPO 并不走这条路——它们各抄各的近道。先看三条流水线的区别，再逐个深入。

三条流水线，长得完全不一样

PPO 偏好数据→ 训练奖励模型→ RL 优化策略＋还要一个价值模型 critic（共 4 个模型）

DPO 偏好数据→ 直接优化策略 ✕ 跳过奖励模型，✕ 不跑 RL

GRPO 一题采样一组答案→ 可验证打分→ 组内比较更新 ✕ 无价值模型 critic，常 ✕ 不训奖励模型

≠

先厘清一个常被含糊带过的概念

on-policy vs off-policy

很多文章只说「在线 / 离线」，但更本质的区分是 on-policy vs off-policy：训练用的数据，到底是不是「当前正在被优化的这个模型」自己生成的。

on-policy（在线）

学的是模型此刻自己生成的回答——边训边采样、打分、更新。
PPO、GRPO 属此类：探索强、上限高，但每步都要现场生成，重。

off-policy（离线 / 直接）

学的是预先准备好、由别的模型生成的固定偏好数据，训练中不自己采样。
DPO 属此类：简单稳定省算力，但只能「啃旧数据」、不能探索新回答。

所以本页表格里的「在线」≈ on-policy、「离线」≈ off-policy，二者高度对应。但严格说：「在线/离线」讲的是"训练中要不要现采新数据"，「on/off-policy」讲的是"数据是不是当前模型产的"。像 Online DPO 就是把 DPO 往 on-policy 方向拉（边训边重新采样）。

on-policy 用当前策略自己产生的数据学习 off-policy 用其他/旧策略产生的数据学习 策略 policy 正在被训练的语言模型

⚙️

PPO 详解

Proximal Policy Optimization 近端策略优化 · 在线 on-policy

最经典、最「正统」的 RLHF 算法。完整走完三步，并额外用一个价值模型(critic)逐 token 估计优势。强大但最重。

PPO 把语言模型当成「策略」：让它生成回答 → 奖励模型打分 → 朝高分方向小步更新。名字里的「近端(Proximal)」就是指每次只走一小步、不让新模型偏离旧模型太远，否则训练容易崩。

🔧 怎么运作

4 个模型同时在场：策略(actor，被训) · 参考(reference，算 KL) · 奖励(RM，打分) · 价值(critic，估优势)
循环：生成回答 → RM 给整句打分 → critic 逐 token 估「这步之后还能拿多少分」→ 用 GAE 算每 token 优势 → 裁剪式小步更新 → KL 拴住别跑偏
「裁剪(clip)」是稳定关键：限制单次更新幅度，防止一步迈太大把模型练废

优点 & 适用

token 级信用分配、效果上限高；复杂、多步、长程 Agent 任务有明显优势(见第 06 节)。算力充足、追求极致效果时首选。

缺点

4 个模型极吃显存、超参多难调、critic 本身也难训。

实战ChatGPT 早期的 RLHF 就是 PPO；GLM-5.2 在长程 Agent 任务上从 GRPO 回归 critic-based PPO。

⚡

DPO 详解

Direct Preference Optimization 直接偏好优化 · 离线 off-policy

「不绕圈子」的对齐。跳过奖励模型和强化学习，直接拿偏好数据像做分类一样优化模型。简单、稳、省。

DPO 的洞察很漂亮：数学上能证明「KL 约束下的最优策略，和奖励模型之间有一个固定的对应关系」。既然如此，干脆把奖励模型从公式里『消掉』，把整个 RLHF 重写成一个简单的损失函数——直接抬高「优选回答」的概率、压低「劣选回答」的概率。不采样、不要 critic、不跑 RL，自然稳得多。

\mathcal{L}_{\text{DPO}}=-\,\mathbb{E}_{(x,\,y_w,\,y_l)}\Big[\log\sigma\Big(\beta\log\tfrac{\pi_\theta(y_w\mid x)}{\pi_{\text{ref}}(y_w\mid x)}-\beta\log\tfrac{\pi_\theta(y_l\mid x)}{\pi_{\text{ref}}(y_l\mid x)}\Big)\Big]

DPO 损失：直接拉大「优选 vs 劣选」的对数概率比（π_θ 相对参考模型 π_ref）。形式上就是个分类损失——没有奖励模型、没有 RL，却等价于在优化前面那条 RLHF 目标。

🔧 怎么运作

输入：(问题, 优选回答 ✓, 劣选回答 ✗) 三元组
一个损失搞定：直接拉大「优选 vs 劣选」的对数概率差，同时用参考模型(原 SFT 模型)拴着别跑偏
本质：把强化学习问题重写成一个监督式的二分类——所以叫「直接」优化

优点 & 适用

简单、稳定、省算力(不采样/无 critic/无 RM)、好复现 → 开源社区最常用。资源有限、想快速稳妥对齐、手上有现成偏好数据时首选。

缺点

离线 off-policy——只能从固定数据学，训练中不能探索新回答；容易过拟合偏好、有长度偏置。

实战大量开源对齐模型(各种 Llama / Qwen 社区微调)用 DPO；它还衍生出 KTO、ORPO、SimPO 等一串变体。

👥

GRPO 详解

Group Relative Policy Optimization 组相对策略优化 · 在线 on-policy

为大规模推理 RL 而生。砍掉价值模型(critic)，用「同一题采样一组答案、组内比好坏」来估计优势。

PPO 要养一个跟模型一样大的 critic，很贵。GRPO 说：不要 critic 了——对同一道题让模型答 G 个(比如 16 个)，谁高于这组的平均分就算「好动作」、谁低于平均就算「坏动作」。用「组内平均」当基准，既省掉 critic，又天然消除了奖励的尺度漂移，训练更稳、更省显存。

\hat{A}_i=\frac{r_i-\operatorname{mean}(r_1,\dots,r_G)}{\operatorname{std}(r_1,\dots,r_G)}

GRPO 的优势估计：同一题采样 G 个回答，每个回答的优势 = 它的奖励减去组内均值、再除以标准差(组内标准化)。高于平均=正优势(鼓励)，低于平均=负优势——不需要价值模型 critic。（这只是「优势估计」这一步；完整 GRPO 还有类 PPO 的 clip + KL 项，分母实现时常加小量 ε 防除零。）

🔧 怎么运作

一题采样一组：同一 prompt 生成 G 条回答
打分：每条用奖励打一个总分(常是可验证的规则奖励：答案对不对 / 格式对不对)
组内标准化：减均值、除标准差，得到每条的优势 → 整条回答的所有 token 共享这个优势
更新：用类似 PPO 的裁剪更新策略，但全程没有 critic

优点 & 适用

省掉 critic(省显存省算力)、训练稳；数学/代码等可验证、单轮的推理任务首选，是 R1 式推理 RL 的引擎。

缺点

结果级信用分配(整条一个分)、要求同题可采多条；多轮 Agent / 长程任务会失灵(见第 06 节)。

实战DeepSeek-R1 / R1-Zero 用 GRPO + 规则可验证奖励，不训神经奖励模型，大规模 RL 让模型自发学会长推理。

🧬 三者速览 + 其他变体

上面逐个讲完了，这里一张表快速对比，并列出它们的衍生变体。「类型」列同时标注 在线/离线 与 on/off-policy。

★ 核心三件套速览

方法	类型	需要哪些辅助模型	一句话
PPO近端策略优化	在线 · on-policy	奖励模型 ✓ + 价值模型 ✓	经典 RLHF 主力，重但效果强；多轮 Agent / 长程任务又有回归(第 06 节)
DPO直接偏好优化	离线 · off-policy	都不要(只用偏好数据)	不跑 RL，把对齐变成分类损失，简单稳定，开源最常用
GRPO组相对策略优化	在线 · on-policy	砍掉价值模型；常不必训奖励模型	省显存，可验证单轮推理(R1)主力；多轮 Agent 会失灵(第 06 节)

其他变体（了解即可，都是上面三个的衍生）

方法	类型	一句话
RLOO / ReMaxREINFORCE Leave-One-Out	在线 · on-policy	更轻量的策略梯度，进一步简化 PPO
DAPO / Dr.GRPOGRPO 的改良变体	在线 · on-policy	GRPO 的改良，修正长度/难度偏置，用于更大规模推理 RL
IPO / CPOIdentity / Contrastive Preference Optimization	离线 · off-policy	DPO 改良，缓解过拟合、长度偏置
Online DPO在线版 DPO	半在线 · 偏 on-policy	边采样新回答边做 DPO，兼顾简单与探索
KTOKahneman-Tversky Optimization	离线 · off-policy	只需「好/坏」单条标注，不用成对偏好
ORPOOdds Ratio Preference Optimization 比值偏好优化	离线 · off-policy	把 SFT + 对齐合并成一步
SimPOSimple Preference Optimization 简单偏好优化	离线 · off-policy	改进 DPO，连参考模型都不要

05 · 奖励来源

奖励从哪来？这条线催生了「会思考」的模型

前面默认奖励来自「人」。但奖励信号其实有三种来源，而第三种——可验证奖励——正是 2024–2025 推理模型大爆发的关键。

奖励信号从哪来（好坏谁说了算）

信号	来源	一句话
RLHFRL from Human Feedback 人类反馈	人	人对回答排序/打分，最经典，ChatGPT 走红的功臣；但贵、慢、有主观偏差
RLAIFRL from AI Feedback AI 反馈	AI	让 AI 按一套写好的「宪法」原则自评自改(Constitutional AI)，大幅省人力
RLVRRL with Verifiable Rewards 可验证奖励	自动判定	对错能自动验证(数学答案对不对、代码能否跑通)，奖励干净、无法被「讨好」，是推理模型的核心

🧠

从「对齐偏好」到「对齐正确性」

RLVR + GRPO → Reasoning Models

普通对齐优化的是「人喜不喜欢」(主观)；推理对齐优化的是「答案对不对」(客观、可验证)。后者给了模型一个无法作弊的奖励，于是模型为了答对，自发学会了「先想很长一段再答」——也就是长思维链(long CoT)。

🔑 关键点

可验证才行：数学、代码、逻辑、形式证明——这些任务对错能被程序自动判定，才能用 RLVR
为什么催生推理：当唯一目标是「答对」，多想几步、自我检查、回溯纠错都能提高正确率，于是这些行为被 RL 强化出来
GRPO 是常用引擎之一：去掉价值模型、省显存，适合大规模采样做这种可验证、单轮的推理 RL（多轮 Agent 任务另说，见第 06 节）
边界：RLVR 不适合开放写作、审美、价值判断这类「没有标准答案」的任务

📌 真实例子

R1 的「顿悟时刻」DeepSeek-R1-Zero 纯靠 RL(没做 SFT)就自发涌现出反思、验证、换思路等行为，论文称之为 “aha moment”。

代表模型DeepSeek-R1 明确披露用 GRPO + 可验证奖励；OpenAI o 系列、GPT-5.x thinking 走类似的推理 RL 路线（细节未公开）。

你能直接看到这类模型回答前会先输出一长段「思考过程」，就是 long CoT 的体现。

RLVR 可验证奖励强化学习long CoT Chain-of-Thought 长思维链推理模型 Reasoning Model 答前先长时间思考的模型Constitutional AI 用原则让 AI 自我批评修正

06 · 前沿 🔥

Long-Horizon / Agentic RL：GRPO 没输，PPO 也没过时

前面说 GRPO 砍掉价值模型、又轻又强，是不是 PPO 就该淘汰了？2025–2026 的实战给出的答案是：看任务。在多轮、靠真实环境反馈驱动的 Agent 任务里，又重又"过时"的 critic-based PPO 正在回归。

①

先分清三个「Long」

Context · CoT · Horizon

这三个词常被混为一谈，但它们对强化学习的影响完全不同。一句话区分：Long-Context 是「看得下」，Long-CoT 是「想得久」，Long-Horizon 是「做得久」。

概念	一句话	例子	对 RL 的影响
Long-Context长上下文	看得下：输入/历史很长	读 200 页 PDF 再回答	主要是架构/推理问题，不直接改变 RL
Long-CoT长思维链	想得久：单次回答内部推理很长	解一道奥数题、写满演算	GRPO 很适合(可验证、单轮)
Long-Horizon长程 / Agent	做得久：多轮「调用→看反馈→再调用」	修 GitHub bug：跑→报错→改→再跑	GRPO 会失灵，PPO/critic 回归

核心区别：Long-Horizon 的每一步由外部真实反馈驱动(代码报错、网页返回 403)，不是模型自己"想"出来的——这正是它给 RL 出难题的根源。

②

「单轮可验证」——GRPO 的主场

Why GRPO shines on reasoning

同一道题采样一组答案(比如 8、16 条)，答案能自动判对错 → 组内比好坏 → 省掉价值模型。又轻又稳，所以成了 R1 式推理 RL 的引擎。

🔑 为什么这里 GRPO 好用

任务可验证：数学、代码、逻辑，对错程序能自动判，奖励干净
单轮 / 弱交互：一次性生成完整推理，中途没有外部环境反馈插进来
同题可采多条：同一 prompt 能采样多条 rollout，「组内比较」自然成立

📌 实战例子

DeepSeek-R1-Zero纯用 GRPO + 规则奖励(答案对不对 + 格式)，不训神经奖励模型，从而避开 reward hacking、也省了一大块工程。

③

但多轮 Agent 里，GRPO 会「失灵」

Where GRPO breaks down

一旦变成多轮、靠真实环境反馈驱动的长程任务，GRPO 的「组」假设和「结果级」打分都站不住了。

想象让模型写爬虫：运气好 3 轮搞定，运气差遇到 403 / 乱码 / 反爬要 8 轮——同一题的不同尝试，轨迹长度和结构天差地别。超长轨迹还得「压缩(compaction)」成多个子轨迹才能训练。这两件事正好踩中 GRPO 的两个软肋：

🔑 两个软肋

组结构被破坏：同一 prompt 不同 rollout 压缩出的子轨迹数量不同、长短不一，GRPO 要求"组内可比"就崩了(极端情况组里只剩 1 条，优势恒为 0，根本学不动)
信用分配太粗(结果级)：整条轨迹所有 token 共享一个分——好轨迹里的废步骤被奖励、坏轨迹里的好步骤被惩罚
轨迹越长越糟：两条尝试可能前 80% 步骤一模一样，只因最后几步环境反馈不同而一成一败，GRPO 却给前 80% 完全相反的梯度

📌 例子

同样写爬虫Rollout A 顺利 3 轮(压缩成 1 条子轨迹)，Rollout B 踩坑 8 轮(压缩成 4 条)。GRPO 想把它们放一组比大小，数量都对不齐，自然没法公平打分。

④

所以 PPO / critic 在回归——但它自己也不轻松

PPO comes back, with new challenges

PPO 的价值模型(critic)能给每个 token 单独的优势估计，从单条 rollout 学习、对子轨迹数量/长度毫无要求，天然契合压缩。代价是：critic 在长程任务里极难训练。

🔑 PPO 为什么更合适

token 级信用分配：critic 判断「这一步通向好结果吗」——好步骤即使在坏轨迹里也能拿正优势，不被最终成败绑架
契合压缩：每个子轨迹独立可训，不需要"组"，数量和长度随便

🔑 但 critic 在长程会"迷路"

高方差：要从当前 token 预测几百步后的回报，中间任一环境反馈都可能改变结局
GAE 的 λ 两难：看远(跨长因果链)还是看准(控方差)，难两全
状态组合爆炸：Agent 中间状态太多，critic 遇到大量没见过的 OOD 状态，估值就是噪声

缓解思路

把中间状态格式化成稀疏离散向量(谁调了什么工具、代码有没有报错……)，让 critic 从"特征组合"泛化，而不是死记一长串自然语言状态——它就能学到「没读文档直接执行=危险状态」这种跨轨迹的规律。

🗺️ 最新模型的 RL / Agentic 实战地图（2025–2026）

各家公开程度不一：有的明说算法，有的只披露"做了 agentic RL"。下表只写有公开信息的部分，标「未公开」= 官方没披露具体 PPO/GRPO 细节，别被二手解读当定论。

模型	团队	RL / Agentic 做法（公开信息）
DeepSeek-R1	深度求索	GRPO + 规则可验证奖励(对错/格式)，不用神经奖励模型
Kimi K2	月之暗面	大规模 agentic 数据合成(3000+ 真实 MCP 工具、2 万+ 合成工具)+ joint RL + 自我批评(rubric)奖励
MiniMax M2	MiniMax	Forge「agent 原生」RL 系统，专门处理 long-horizon 轨迹，训练/推理/agent 解耦
Qwen3	阿里	四阶段后训练：长 CoT 冷启 → 数学/代码 RL → 思考/非思考融合 → 通用 RL
Qwen3-Coder	阿里	在可执行环境里用真实反馈训练 coding agent
GLM-5 / 5.2	智谱	主打 agentic engineering、异步 RL 基础设施；据技术博客解读，长程任务上从 GRPO 转向 critic-based PPO
Claude Sonnet 4.5	Anthropic	主打 agent / 工具 / computer-use，可在多步任务保持 30+ 小时专注(RL 细节未公开)
OpenAI o 系列	OpenAI	大规模 RL 让模型学会用思维链思考，test-time 思考越多越强(算法细节未公开)

🎯 一句话结论：GRPO 没输，PPO 也没过时。单轮、可验证的推理任务偏向 GRPO(轻、稳、好扩展)；多轮、真实环境交互的 Agent 任务更需要细粒度信用分配，critic-based PPO、turn-level PPO 和各种混合方法正在回潮。选哪个，取决于任务是「想得久」还是「做得久」。

Long-Horizon 长程，多轮工具调用 + 环境反馈 compaction 轨迹压缩，把超长轨迹切成子轨迹 critic 价值模型，逐 token 估"当前局面有多好" GAE Generalized Advantage Estimation 广义优势估计 credit assignment 信用分配，把功劳/过错归到具体步骤

07 · 翻车现场

对齐的 6 个经典坑

对齐不是「调一调就完美」。优化目标和真实意图之间总有缝隙，模型很擅长钻这些缝。下面是最常见的几种翻车。

奖励黑客 Reward Hacking

模型钻奖励模型的漏洞，拿高分却没真变好——比如狂加 emoji、堆专业词、故意写很长。根因：RM 是偏好的近似，不是真理。

缓解：更强的 RM、KL 惩罚、人工抽检、奖励集成。

谄媚 Sycophancy

模型学会「顺着用户说」来讨好——你说 1+1=3，它可能改口附和，因为人类标注更偏爱「认同自己」的回答。

缓解：在偏好数据里奖励「敢说真话」，引入诚实度维度。

长度偏置 Length Bias

RM 和人类都容易觉得「长 = 详细 = 好」，于是模型变得越来越啰嗦，答个简单问题也长篇大论。

缓解：长度归一化、SimPO/Dr.GRPO 等专门去偏的算法。

对齐税 Alignment Tax

对齐后，模型某些原始能力(如多样性、某些 benchmark 分)反而下降——「变乖」和「变强」之间存在张力。

缓解：混入预训练数据、控制 KL、能力与对齐数据配比。

过度拒绝 Over-refusal

安全做过头，连「如何 kill 一个进程」「写恐怖小说」这类正常请求也拒答，体验变差。

缓解：加入「正常请求该正常答」的对照样例，精细化安全边界。

多样性塌缩 Mode Collapse

过度优化单一奖励，回答变得千篇一律、套路化，创造性和多样性下降。

缓解：保留温度采样、控制优化强度、多目标平衡。

速查表

一张表回顾对齐全貌

问题	答案
对齐解决什么	让模型从「答得对」升级到「答得有用、诚实、无害」(3H)
核心思想	偏好学习——把「难定义的好」转成「可比较的偏好」(二选一)
经典三步(RLHF)	① 采集人类偏好 → ② 训奖励模型(裁判) → ③ PPO 强化学习(+KL 刹车)
为什么有 DPO	PPO 太重(4 个模型)；DPO 跳过 RL 和奖励模型，变成简单分类损失
两大流派	在线 RL(PPO/GRPO) vs 离线直接(DPO/KTO/ORPO/SimPO)
奖励三来源	RLHF(人) · RLAIF(AI/宪法) · RLVR(可验证)
推理模型怎么来的	RLVR + 在线 RL(如 GRPO)：用可验证奖励做大规模 RL → 模型自发学会长思维链(o1/R1)
GRPO vs PPO 怎么选	可验证单轮推理 → GRPO(轻、稳)；多轮真实环境 Agent → critic-based PPO 在回归(长程信用分配更细)
最大的坑	奖励黑客、谄媚、长度偏置、对齐税、过度拒绝、多样性塌缩