RLHF 到 GRPO：大模型强化学习训练方法梳理

关联阅读：SFT 与 RL 在推理中的应用

1. 背景：从 SFT 到 RLHF

预训练 + SFT 给了模型通用能力，但对齐（helpfulness、harmlessness、honesty）和进一步提升推理能力，光靠有监督微调效果有限。RLHF（Reinforcement Learning from Human Feedback） 通过让模型在”好的回复得到奖励”的环境下训练，成为 InstructGPT/ChatGPT 等产品的核心技术。

近年来，以 DeepSeek-R1 为代表的推理模型则更进一步——直接用 可验证奖励（Verifiable Reward） 替代人类反馈，在数学和代码等任务上取得了远超 SFT 的推理能力提升。

本文梳理从 PPO 到 GRPO 的方法演变脉络，以及工程实现上的关键挑战。

2. PPO for LLM：四模型体系

经典 RLHF（InstructGPT [1]）基于 PPO（Proximal Policy Optimization） 算法，训练时需要同时维护四个模型：

模型	角色	是否训练	显存占用
Actor（策略）	当前 LLM，生成回复	✅ 训练	1x
Reference	初始 SFT 模型，计算 KL 惩罚	❌ 冻结	1x
Critic（价值）	估计每个 token 的期望回报	✅ 训练	1x
Reward Model	给完整回复打分	❌ 冻结	1x

目标函数（PPO-Clip）：

\[\mathcal{L}_{\text{PPO}} = \mathbb{E}_t \left[ \min\left(r_t(\theta) \hat{A}_t,\ \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t\right) \right] - \beta \cdot D_{KL}(\pi_\theta \| \pi_{\text{ref}})\]

其中 $r_t(\theta) = \pi_\theta(a_t

s_t) / \pi_{\text{ref}}(a_t

s_t)$ 是新旧策略的概率比，$\hat{A}_t$ 是 Critic 估计的优势函数，KL 项防止 Actor 偏离 Reference 太远。

工程痛点：

四个模型同时驻留显存，是 SFT 的 4 倍显存开销；
Critic 模型通常与 Actor 同等量级，训练开销大；
生成（rollout）是主要瓶颈，占总训练时间的 80~90%。

3. GRPO：去掉 Critic

DeepSeekMath [2]（2024）提出 GRPO（Group Relative Policy Optimization），核心改进是用组采样估计基准值，彻底去掉 Critic 模型。

3.1 算法

对每个问题 $q$，采样 $G$ 个回复 ${o_1, …, o_G}$，得到奖励 ${r_1, …, r_G}$。用组内相对奖励作为优势估计：

\[\hat{A}_i = \frac{r_i - \text{mean}(r_{1:G})}{\text{std}(r_{1:G})}\]

目标函数（类 PPO-Clip，无 Critic）：

\[\mathcal{L}_{\text{GRPO}} = \mathbb{E}_q \left[ \frac{1}{G} \sum_{i=1}^G \min\left(r_i^{\theta} \hat{A}_i,\ \text{clip}(r_i^{\theta}, 1-\epsilon, 1+\epsilon) \hat{A}_i\right) \right] - \beta \cdot D_{KL}(\pi_\theta \| \pi_{\text{ref}})\]

其中 $r_i^{\theta} = \pi_\theta(o_i

q) / \pi_{\text{old}}(o_i

q)$。

3.2 与 PPO 的对比

	PPO	GRPO
Critic 模型	需要，与 Actor 同量级	无需
基准值估计	Token 级别，Critic 网络	组内平均奖励
显存	~4x（4 模型）	~2x（Actor + Reference）
每步样本量	1 个回复/问题	$G$ 个回复/问题（采样更多）
训练稳定性	相对稳定（Critic 给连续价值估计）	需要 $G$ 足够大

DeepSeekMath 用 7B 模型在 MATH benchmark 上达到 51.7%，显示 GRPO 在数学推理任务上效果显著。

4. RLOO：REINFORCE 的简化变体

RLOO（REINFORCE Leave-One-Out） [3] 是更接近经典策略梯度的方法：

同样对每个问题采样 $G$ 个回复，但基准值用留一法平均：

\[b_i = \frac{1}{G-1} \sum_{j \neq i} r_j\] \[\hat{A}_i = r_i - b_i\]

与 GRPO 的区别：

GRPO 用全组标准化（$z$-score）的优势；
RLOO 直接用”$r_i$ 减去其他样本均值”作为优势，不做方差归一化；
都不需要 Critic，显存同样是 ~2x。

实践中两者性能相近，GRPO 的方差归一化在奖励尺度不固定时更稳健。

5. RLVR：用可验证奖励替代 Reward Model

PPO/GRPO 都需要一个 Reward Model，而 Reward Model 本身可能存在奖励 hacking（策略找到模型漏洞刷高分，而非真正学到正确行为）。

RLVR（RL with Verifiable Rewards） [4] 的核心思路：对于有标准答案的任务（数学、代码），直接用规则判断对错：

\[r(o, q) = \begin{cases} +1 & \text{答案正确} \\ 0 & \text{答案错误} \end{cases}\]

优点：

奖励无法被 hack（答案对就是对，对错用程序判断）；
不需要训练/维护 Reward Model；
与 GRPO 结合，训练流程极简（2 个模型 + 规则函数）。

局限：

只适用于有可验证标准答案的任务；
对于创意写作、开放式问答等场景，仍需要 Reward Model。

DeepSeek-R1 [5] 就是 RLVR + GRPO 的典型应用：在 AIME、AMC 等数学竞赛题上，直接用判题器做奖励，训练出了强大的推理能力。

6. 工程挑战：Rollout 是瓶颈

6.1 生成时间占主导

RL 训练的大部分时间花在 rollout（生成回复） 上：

生成是自回归的，无法像前向传播那样批量并行化；
对于推理任务（chain-of-thought），每个问题可能需要生成 1000+ token；
估计 80~90% 的训练时间在 rollout，不在梯度更新。

6.2 生成与训练分离（PD 分离）

解决方案：将生成节点和训练节点分开：

[Rollout GPUs]                 [Training GPUs]
  - 用 vLLM/SGLang 推理框架       - 用 Megatron/DeepSpeed 训练
  - 开 PagedAttention/连续批处理   - 开 FSDP/ZeRO/PP/TP
  - 持续生成，塞满 replay buffer   - 从 buffer 取 batch 做梯度更新
  - 定期同步最新参数 ←─────────────┘

异步 RLHF [6]：训练节点不等 rollout 完成，直接从 buffer 里取稍旧的样本训练（off-policy）。实验表明可以在保持接近 on-policy 性能的同时，获得 40~70% 的吞吐提升。

6.3 权重同步开销

Actor 更新后需要把参数同步给 Rollout 节点。常见做法：

每 $k$ 步同步一次（异步时 $k > 1$，容忍轻微的 off-policy）；
用 NCCL broadcast 或参数服务器同步；
部分框架（如 veRL [7]、OpenRLHF）将生成和训练整合在同一套 GPU 上，通过显存复用避免冗余拷贝。

7. 当前主流开源框架

框架	训练后端	生成后端	算法
TRL (HuggingFace)	Transformers	vLLM	PPO, GRPO, RLOO
OpenRLHF	DeepSpeed	vLLM	PPO, GRPO
veRL	Megatron-LM	vLLM	GRPO, PPO
LLaMA-Factory	DeepSpeed/FSDP	内置	DPO, GRPO

参考

[1] Ouyang, L., et al. Training language models to follow instructions with human feedback. NeurIPS 2022. arxiv:2203.02155

[2] Shao, Z., et al. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. 2024. arxiv:2402.03300

[3] Ahmadian, A., et al. Back to Basics: Revisiting REINFORCE-Style Optimization for Learning from Human Feedback in LLMs. ACL 2024. arxiv:2402.14740

[4] Lightman, H., et al. Let’s Verify Step by Step. ICLR 2024. arxiv:2305.20050

[5] DeepSeek-AI. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. 2025. arxiv:2501.12948

[6] Noukhovitch, M., et al. Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models. ICLR 2025. arxiv:2410.18252

[7] Sheng, G., et al. HybridFlow: A Flexible and Efficient RLHF Framework. 2024. arxiv:2409.19256

上篇流水线并行（Pipeline Parallelism）：1F1B 调度与气泡分析

下篇序列并行（SP）与上下文并行（CP）：超长上下文训练的关键