为什么相比于SFT训练，RL训练更依赖推理引擎

在大模型的训练中，常见的 RL（Reinforcement Learning）训练框架往往对推理引擎（如 vLLM、SGLang）依赖更强，甚至会将其作为安装和运行的必选组件。

核心原因很简单：SFT 在训练时只需要一次性计算 logits（Prefill），而 RL 的 rollout 阶段必须走完整的 Prefill + Decode 推理流程

1. Prefill vs Decode

在 Transformer 推理中，我们可以把计算过程分为两种模式：

阶段	输入内容	输出内容	并行性
Prefill	一次性输入整个序列（prompt + 已知目标）	输出所有位置的 logits	高
Decode	输入是上一步生成的 token（加历史 KV Cache）	当前 token 的 logits	低（逐 token 串行）

SFT 的训练数据是成对的 (prompt, target)，目标序列是已知的：

特点：

RL 训练（例如 RLHF）中的 rollout 阶段，需要模型自由生成未知的输出：

特点：

由于 rollout 的推理过程包含大量逐 token 的 decode，RL 对推理性能的要求非常高：

vLLM、SGLang 等推理引擎正是针对这些需求优化的，因此在 RL 训练中几乎是标配。