主页 - 薛小嵩blog

前置阅读：流水线并行（1F1B） 1. 回顾：1F1B 的气泡极限 1F1B 的气泡比率为： \[\text{bubble ratio}_{\text{1F1B}} = \frac{p - 1}{m}\] 想降低气泡，有两条路：增大 $m$（micro-batch 数）：但显存需求也随之增大（更多 in-flight 激活），且每个 micro-batch 变小会降低 GPU 的矩阵乘效率；减小 $p$（stage 数）：但这意味着要么缩减模型规模，要么每个 stage 承载更多层——两者都不是我们想要的。 VPP（Virtual Pipeline Parallelism，也叫 Interleaved PP）提供了第三条路：在不增加物理 GPU 数的前提...

前置阅读：张量并行与通信分布式训练并行基础 1. 为什么需要序列并行训练长上下文（如 128K、1M token）模型时，内存瓶颈主要来自：激活值：self-attention 的 $Q$、$K$、$V$ 和中间结果，内存随序列长度 $L$ 线性增长； KV Cache：每层的 $K$、$V$ 需要存储，$O(L \cdot d)$ 的显存； TP 的 Embedding / LayerNorm 副本：张量并行（TP）要求每张卡持有相同的完整激活，$L$ 大时这个”完整副本”变得难以承受。序列并行（Sequence Parallelism，SP）和上下文并行（Context Parallelism，...

关联阅读：SFT 与 RL 在推理中的应用 1. 背景：从 SFT 到 RLHF 预训练 + SFT 给了模型通用能力，但对齐（helpfulness、harmlessness、honesty）和进一步提升推理能力，光靠有监督微调效果有限。RLHF（Reinforcement Learning from Human Feedback）通过让模型在”好的回复得到奖励”的环境下训练，成为 InstructGPT/ChatGPT 等产品的核心技术。近年来，以 DeepSeek-R1 为代表的推理模型则更进一步——直接用可验证奖励（Verifiable Reward）替代人类反馈，在数学和代码等任务上取得了远超 SFT 的推理能力提升。本文梳理从 PPO 到 GRPO ...

本文是分布式训练并行系列的一篇。前置背景可参考：分布式模型并行（含 PP 朴素方案 + GPipe 概览） NCCL 通信原语 1. 为什么需要流水线并行单机模型并行（Naïve Model Parallel）把模型不同层放在不同 GPU，同一时刻只有一张卡在算，其余全部空等——GPU 利用率极低。 GPipe [1] 提出用 micro-batch 填充流水线空隙：把一个 mini-batch 切成 $m$ 份 micro-batch，各阶段可以流水线化执行。但 GPipe 的 “全 F 全 B” 策略导致：显存峰值高：设备 0 要把所有 $m$ 个 micro-batch 的激活值全存到反向传播结束；气泡（Bubble）时间...

关联阅读：训练中的显存优化 ZeRO 优化 1. 问题：反向传播需要存激活标准反向传播（Backpropagation Through Time / Chain Rule）需要在反向时访问每层前向传播的中间激活（intermediate activations）。以一个 $n$ 层的模型为例：前向：x₀ → [Layer 1] → x₁ → [Layer 2] → ... → xₙ₋₁ → [Layer n] → xₙ = loss 反向需要： dL/dx_{n-1} 需要 x_{n-1}（Layer n 的输入） dL/dx_{n-2} 需要 x_{n-2}（Layer n-1 的输入） ... dL...

关联阅读：Transformer 加速技巧混合精度训练（AMP） 1. 标准 Attention 的内存瓶颈标准 Attention 计算为： \[\text{Attention}(Q, K, V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right) V\] 朴素实现的显存复杂度为 $O(N^2)$（需要存储 $N \times N$ 的 attention score 矩阵），时间复杂度也是 $O(N^2 d)$。瓶颈在哪里？不是 FLOP 不够，而是 HBM（显存带宽）太慢。以 A100（80GB HBM2e，带宽 2TB/s，FP16 算力 312...

论文：DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference arXiv:2602.21548，2026.02.25，作者：Yongtong Wu, Shaoyuan Chen, Yinmin Zhong 等（北大 + 字节 + 清华） 1. 问题：Agentic 推理的 I/O 瓶颈近年来，以 Coding Agent 为代表的 Agentic LLM 应用呈现出与批量推理截然不同的访问模式。论文给出了来自生产环境的真实 trace 数据（coding task）：指标数值平均交互轮...

前置阅读：序列并行（SP）与上下文并行（CP） 1. 背景：为什么需要 CP 对于纯文本 LLM，开启上下文并行（Context Parallelism，CP）可以将长序列的激活显存分摊到多张卡上： CP 组内每张卡只持有序列的 $L/P$ 段； KV-Cache 也按序列维切分，显存随 CP 度线性减少； Ring Attention 或 Ulysses 负责跨卡的 attention 计算。 Megatron-LM 的 get_batch_on_this_cp_rank 函数负责做这个切分，并且有一个负载均衡的细节： 1.1 Causal Mask 下的负载均衡对于因果（causal）LLM，序列靠后的 token 需要 attend 到更多的 ...

主页

虚拟流水线并行（VPP）：更低气泡，更高吞吐

序列并行（SP）与上下文并行（CP）：超长上下文训练的关键

RLHF 到 GRPO：大模型强化学习训练方法梳理

流水线并行（Pipeline Parallelism）：1F1B 调度与气泡分析

梯度检查点（Gradient Checkpointing）：用计算换显存

FlashAttention：IO 感知的精确 Attention 计算

DualPath：用双路径 KV-Cache 加载打破 Agentic 推理的存储瓶颈

上下文并行在多模态模型中为什么会失效